Définition de champs dans un fichier de séquence de sortie

Dans le stage Write to Hadoop Sequence File, l'onglet Champs définit les noms, les positions et les types des champs du fichier. Après avoir défini un fichier d'entrée sur l'onglet Propriétés de fichier, vous pouvez définir les champs.

  1. Pour sélectionner les champs de votre choix dans les données d'entrée ou un fichier existant, cliquez sur Ajout rapide.
    1. Sélectionnez les champs spécifiques à partir des données d'entrée.
    2. Cliquez sur OK.
  2. Pour ajouter de nouveaux champs, cliquez sur Ajouter.
    1. Saisissez le Nom du champ.
    2. Sélectionnez le Type du champ. Le stage prend en charge les types de données suivants :
      booléen
      Type logique doté de deux valeurs : True et False.
      date
      Type de données contenant un mois, un jour et une année. Par exemple, 2012-01-30 ou January 30, 2012. Vous pouvez indiquer un format de date par défaut dans Management Console.
      datetime
      Type de données contenant un mois, un jour, une année et des heures, des minutes et des secondes. Par exemple, 2012/01/30 6:15 PM.
      Remarque : Dans les fichiers Parquet, les types de données datetime ettime sont mappés sous forme de String. Dans les fichiers RC, le type de données datetime est mappé sous forme de timestamp.
      double
      Un type de données numérique qui contient à la fois des nombres en double précision négatifs et positifs entre 2-1074 et (2-2-52)×21023. En notation E, la plage de valeurs est comprise entre -1.79769313486232E+308 et 1.79769313486232E+308.
      flottant
      Un type de données numérique contenant des nombres de précision seuls négatifs et positifs entre 2-149 et (2-223)×2127. En notation E, la plage de valeurs est comprise entre -3.402823E+38 et 3.402823E+38.
      integer
      Un type de données numériques qui contient à la fois des nombres entiers négatifs et positifs entre -231 (-2,147,483,648) et 231-1 (2,147,483,647).
      bigdecimal
      Type de données numérique prenant en charge 38 points de précision décimaux. Utilisez ce type de données pour les données utilisées dans les calculs mathématiques requérant un haut niveau de précision, en particulier ceux impliquant des données financières. Le type de données bigdecimal prend en charge des calculs plus précis que le type de données double.
      Remarque : Pour les fichiers RC, Avro et Parquet Hive, le type de données bigdecimal est converti en type de données decimal à une précision 38 et une échelle 10.
      long
      Un type de données numériques qui contient à la fois des nombres entiers négatifs et positifs entre -263 (-9,223,372,036,854,775,808) et 263-1 (9,223,372,036,854,775,807).
      Remarque : Dans les fichiers RC, le type de données long est mappé sous forme de type de données bigint.
      chaîne
      Séquence de caractères.
    3. Dans le champ Position, entrez la position de ce champ dans l'enregistrement.

      Par exemple, dans ce fichier d'entrée, AddressLine1 est en position 1, City est en position 2, StateProvince est en position 3, et PostalCode est en position 4.

      "AddressLine1"|"City"|"StateProvince"|"PostalCode"
      "7200 13TH ST"|"MIAMI"|"FL"|"33144"
      "One Global View"|"Troy"|"NY"|12180
  3. Si vous écrasez un fichier existant, cliquez sur Régénérer pour récupérer le schéma du fichier existant, puis modifiez-le.
    Cette opération génère le schéma en fonction des 50 premiers enregistrements dans les données d'entrée de ce stage.
  4. Si vous souhaitez que tout caractère d'espacement superflu soit supprimé au début et à la fin d'une chaîne de caractères dans un champ, cochez la case Espaces courts.
  5. Indiquez l'une des options suivantes pour générer la clé :
    Générer automatiquement

    Le cluster Hadoop génère automatiquement la clé. Pour la génération automatique, tous les champs de la grille sont considérés comme des champs de valeur. Le type de données de la clé est long.

    Défini par l'utilisateur

    Par défaut, le premier champ de la grille est sélectionné comme champ de clé. Une icône est affichée pour indiquer que le champ est le champ de clé. Vous pouvez sélectionner tout autre champ comme champ de clé.

Après avoir défini les champs dans votre fichier de sortie, vous pouvez en modifier le contenu et la disposition.

Nom de l'option

Description

Ajouter

Ajoute un champ dans la sortie. Vous pouvez ajouter un champ à la fin de la disposition existante ou insérer un champ à une position existante et la position des champs restants est ajustée en conséquence.

Modifier

Modifie le nom et le type du champ.

Enlever

Enlève le champ sélectionné de la sortie.

Déplacer vers le haut/Déplacer vers le bas

Réorganise le champ sélectionné.