Definición de campos en un archivo de secuencia de entrada

En la etapa Read from Hadoop Sequence File, la ficha Campos define los nombres, las posiciones y los tipos de campos en el archivo. Una vez que haya definido un archivo de entrada en la ficha Propiedades del archivo, podrá definir los campos.

Si el archivo de entrada no contiene un registro de encabezado o si desea definir los campos manualmente, siga estos pasos en la ficha Campos:

  1. Para definir los campos que ya existen en el archivo de entrada, haga clic en Regenerar. Después haga clic en Detectar tipo. El tipo de datos de cada campo se configurará automáticamente de acuerdo con los primeros 50 registros del archivo.
  2. Para agregar campos adicionales en la salida, haga clic en Agregar.
  3. En el campo Nombre, elija el campo que desea agregar o ingrese el nombre del campo.
  4. En el campo Tipo puede dejar el tipo de datos como cadena, si no se ha propuesto realizar ninguna operación matemática con los datos. Sin embargo, si se propone realizar ese tipo de operaciones, seleccione un tipo de datos apropiado. Esto convertirá los datos de cadena del archivo en un tipo de datos que permitirá el manejo adecuado de los datos en el flujo de datos.
    La etapa admite los siguientes tipos de datos:
    double
    Un tipo de dato numérico que contiene números de doble precisión tanto negativos como positivos entre 2-1074 y (2-2-52)×21023. En notación científica, el rango de valores es - 1.79769313486232E+308 a 1.79769313486232E+308.
    float
    Un tipo de dato numérico que contiene números de precisión simple tanto negativos como positivos entre 2-149 y (2-223)×2127. En notación científica, el rango de valores es - 3.402823E+38 a 3.402823E+38.
    integer
    Un tipo de datos numérico que contiene números enteros positivos y negativos entre -231 (-2,147,483,648) y 231-1 (2,147,483,647).
    long
    Un tipo de datos numérico que contiene números enteros positivos y negativos entre -263 (-9,223,372,036,854,775,808) y 263-1 (9,223,372,036,854,775,807).
    string
    Secuencia de caracteres.
  5. En el campo Posición, ingrese la posición de este campo dentro del registro.

    Por ejemplo, en este archivo de entrada, AddressLine1 está en posición 1; City, en posición 2; StateProvince, en posición 3; y PostalCode, en posición 4.

    "AddressLine1"|"City"|"StateProvince"|"PostalCode"
    "7200 13TH ST"|"MIAMI"|"FL"|"33144"
    "One Global View"|"Troy"|"NY"|12180
  6. Si desea eliminar los caracteres que ocupan demasiado espacio al principio y al final de la cadena de valores de un campo, seleccione la casilla Recortar.