Définition de champs dans un fichier de séquence d'entrée

Dans le stage Read from Hadoop Sequence File, l'onglet Champs définit les noms, les positions et les types des champs du fichier. Après avoir défini un fichier d'entrée sur l'onglet Propriétés de fichier, vous pouvez définir les champs.

Si le fichier d'entrée ne contient pas d'enregistrement d'en-tête, ou si vous souhaitez définir manuellement les champs, suivez ces étapes dans l'onglet Champs :

  1. Pour définir les champs déjà présents dans le fichier d’entrée, cliquez sur Régénérer. Ensuite, cliquez sur Détecter le type. Cela définira automatiquement le type de données pour chaque champ en fonction des 50 premiers enregistrements dans le fichier.
  2. Pour ajouter des champs supplémentaires dans la sortie, cliquez sur Ajouter.
  3. Dans le champ Name, choisissez le champ à ajouter ou saisissez le nom du champ.
  4. Dans le champ Type, vous pouvez laisser le type de données défini sur chaîne si vous ne prévoyez pas d'effectuer des opérations mathématiques sur les données. Cependant, si vous avez l'intention d'effectuer ce genre d'opérations, sélectionnez un type de données approprié. Cela convertira les données de chaîne à partir du fichier en un type de données qui activera la manipulation appropriée des données dans le flux de données.
    Le stage prend en charge les types de données suivants :
    double
    Un type de données numérique qui contient à la fois des nombres en double précision négatifs et positifs entre 2-1074 et (2-2-52)×21023. En notation E, la plage de valeurs est comprise entre -1.79769313486232E+308 et 1.79769313486232E+308.
    flottant
    Un type de données numérique contenant des nombres de précision seuls négatifs et positifs entre 2-149 et (2-223)×2127. En notation E, la plage de valeurs est comprise entre -3.402823E+38 et 3.402823E+38.
    integer
    Un type de données numériques qui contient à la fois des nombres entiers négatifs et positifs entre -231 (-2,147,483,648) et 231-1 (2,147,483,647).
    long
    Un type de données numériques qui contient à la fois des nombres entiers négatifs et positifs entre -263 (-9,223,372,036,854,775,808) et 263-1 (9,223,372,036,854,775,807).
    chaîne
    Séquence de caractères.
  5. Dans le champ Position, entrez la position de ce champ dans l'enregistrement.

    Par exemple, dans ce fichier d'entrée, AddressLine1 est en position 1, City est en position 2, StateProvince est en position 3, et PostalCode est en position 4.

    "AddressLine1"|"City"|"StateProvince"|"PostalCode"
    "7200 13TH ST"|"MIAMI"|"FL"|"33144"
    "One Global View"|"Troy"|"NY"|12180
  6. Si vous souhaitez que tout caractère d'espacement superflu soit supprimé au début et à la fin d'une chaîne de valeur dans un champ, cochez la case Trim.