Définition des champs pour Read from Hive File

Dans l'onglet Champs du stage Read from Hive File, les noms de schéma, les types de données, les positions et les noms donnés des champs du fichier sont répertoriés.

  1. Cliquez sur Régénérer.
    S'il s'agit de fichiers ORC, Avro et Parquet, cette opération génère le schéma en fonction des métadonnées du fichier existant. S'il s'agit de fichiers RC, tous les champs ajoutés avant de cliquer sur Aperçu sont effacés.

    La grille affiche les colonnes Nom, Type, Champ de stage et Inclure.

    La colonne Nom affiche le nom de champ dérivé de l'enregistrement d'en-tête du fichier.

    La colonne Type répertorie les types de données de chaque champ respectif du fichier.

    Le stage prend en charge les types de données suivants :

    booléen
    Type logique doté de deux valeurs : True et False.
    date
    Type de données contenant un mois, un jour et une année. Par exemple, 2012-01-30 ou January 30, 2012. Vous pouvez indiquer un format de date par défaut dans Management Console.
    datetime
    Type de données contenant un mois, un jour, une année et des heures, des minutes et des secondes.

    Par exemple, 2012/01/30 6:15 PM.

    Remarque : Le type de données datetime de Spectrum correspond au type de données timestamp des fichiers Hive.
    double
    Un type de données numérique qui contient à la fois des nombres en double précision négatifs et positifs entre 2-1074 et (2-2-52)×21023. En notation E, la plage de valeurs est comprise entre -1.79769313486232E+308 et 1.79769313486232E+308.
    bigdecimal
    Type de données numérique prenant en charge 38 points de précision décimaux. Utilisez ce type de données pour les données utilisées dans les calculs mathématiques requérant un haut niveau de précision, en particulier ceux impliquant des données financières. Le type de données bigdecimal prend en charge des calculs plus précis que le type de données double.
    Remarque : Pour les fichiers RC, Avro et Parquet Hive, les champs du type de données decimal du fichier d'entrée sont convertis en type de données bigdecimal.
    long
    Un type de données numériques qui contient à la fois des nombres entiers négatifs et positifs entre -263 (-9,223,372,036,854,775,808) et 263-1 (9,223,372,036,854,775,807).
    Remarque : Le type de données long de Spectrum correspond au type de données bigint des fichiers Hive.
    integer
    Un type de données numériques qui contient à la fois des nombres entiers négatifs et positifs entre -231 (-2,147,483,648) et 231-1 (2,147,483,647).
    flottant
    Un type de données numérique contenant des nombres de précision seuls négatifs et positifs entre 2-149 et (2-223)×2127. En notation E, la plage de valeurs est comprise entre -3.402823E+38 et 3.402823E+38.
    chaîne
    Séquence de caractères.
    Remarque : S'il s'agit de fichiers RC, les types de données smallint et complexes ne sont pas pris en charge.
    La colonne Position affiche la position de départ du champ respectif au sein d'un enregistrement.
  2. Dans la colonne Champ de stage, modifiez le nom de champ existant de votre choix pour chaque champ.
    Par défaut, cette colonne affiche les noms de champ lus à partir du fichier.
  3. Dans la colonne Inclure, cochez les cases en regard des champs que vous souhaitez inclure dans la sortie du stage.
    Par défaut, tous les champs sont sélectionnés dans cette colonne.
  4. Pour les fichiers RC, vous pouvez ajouter et supprimer des champs et modifier l'ordre des colonnes sélectionnées dans la sortie en utilisant les boutons ci-dessous :

    Nom de l'option

    Description

    Ajouter

    Ajoute un champ dans la sortie.

    Modifier

    Modifie le nom et le type de données du champ sélectionné.

    Supprimer

    Enlève le champ sélectionné de la sortie.

    Déplacer vers le haut/Déplacer vers le bas

    Réorganise la position du champ sélectionné dans la sortie.

    Remarque : Cette fonctionnalité est disponible uniquement pour les fichiers RC.
  5. Cliquez sur OK.