Definición de campos en un archivo de secuencia de salida

En la etapa Write to Hadoop Sequence File, la ficha Campos define los nombres, las posiciones y los tipos de campos en el archivo. Una vez que haya definido un archivo de entrada en la ficha Propiedades del archivo, podrá definir los campos.

  1. Para seleccionar los campos deseados en los datos de entrada, o un archivo existente, haga clic en Agregado rápido.
    1. Seleccione los campos específicos de los datos de entrada.
    2. Haga clic en Aceptar.
  2. Para agregar nuevos campos, haga clic en Agregar.
    1. Ingrese el Nombre del campo.
    2. Seleccione el Tipo del campo. La etapa admite los siguientes tipos de datos:
      boolean
      Tipo de dato lógico con dos valores: verdadero y falso
      fecha
      Un tipo de dato que contiene un mes, día y año. Por ejemplo, 2012-01-30 o 30 de enero, 2012. Puede especificar un formato de fecha predeterminado en Management Console.
      fecha y hora
      Un tipo de dato que contiene un mes, día, año y horas, minutos y segundos. Por ejemplo, 2012/01/30 6:15 PM.
      Nota: En los archivos Parquet, los tipos de datosdatetime ytime se asignan comoString. En los archivos RC, el tipo de datosdatetime se asigna comotimestamp.
      double
      Un tipo de dato numérico que contiene números de doble precisión tanto negativos como positivos entre 2-1074 y (2-2-52)×21023. En notación científica, el rango de valores es - 1.79769313486232E+308 a 1.79769313486232E+308.
      float
      Un tipo de dato numérico que contiene números de precisión simple tanto negativos como positivos entre 2-149 y (2-223)×2127. En notación científica, el rango de valores es - 3.402823E+38 a 3.402823E+38.
      integer
      Un tipo de datos numérico que contiene números enteros positivos y negativos entre -231 (-2,147,483,648) y 231-1 (2,147,483,647).
      bigdecimal
      Un tipo de dato numérico que admite 38 puntos decimales de precisión. Utilice este tipo de datos para datos que se usarán en cálculos matemáticos que requieren un alto grado de precisión, especialmente aquellos que implican datos financieros. El tipo de datos bigdecimal es compatible con cálculos más precisos que el tipo de datos double.
      Nota: Para los archivos RC, Avro y Parquet Hive, el tipo de dato bigdecimal se convierte en un tipo de dato decimal con precisión de 38 y una escala 10.;
      long
      Un tipo de datos numérico que contiene números enteros positivos y negativos entre -263 (-9,223,372,036,854,775,808) y 263-1 (9,223,372,036,854,775,807).
      Nota: En los archivos RC, el tipo de datos long se asigna como tipo de datosbigint.
      string
      Secuencia de caracteres.
    3. En el campo Posición, ingrese la posición de este campo dentro del registro.

      Por ejemplo, en este archivo de entrada, AddressLine1 está en posición 1; City, en posición 2; StateProvince, en posición 3; y PostalCode, en posición 4.

      "AddressLine1"|"City"|"StateProvince"|"PostalCode"
      "7200 13TH ST"|"MIAMI"|"FL"|"33144"
      "One Global View"|"Troy"|"NY"|12180
  3. Si está sobrescribiendo un archivo actual, haga clic en Regenerar para elegir el esquema del archivo actual y, luego, modifíquelo.
    Esto genera el esquema a partir de los primeros 50 registros en los datos de entrada de esta etapa.
  4. Si desea eliminar los caracteres que ocupan demasiado espacio al principio y al final de la cadena de caracteres de un campo, seleccione la casilla Recortar espacios.
  5. Especifique una de las siguientes opciones para generar la clave:
    Generar automáticamente

    El clúster Hadoop genera la clave automáticamente. Para la generación automática, todos los campos en la cuadrícula se consideran campos de valor. El tipo de datos de la clave es largo.

    Definido por el usuario

    De manera predeterminada, el primer campo en la cuadrícula se selecciona como el campo clave. Se muestra un icono para indicar que el campo es el campo clave. Puede seleccionar cualquier otro campo como el campo clave.

Después de definir los campos de su archivo de salida, puede editar su contenido y diseño.

Nombre de la opción

Descripción

Agregar

Agrega un campo a la salida. Puede anexar un campo al final del diseño existente o insertar un campo en una posición existente y la posición de los campos restantes se ajustará según corresponda.

Modificar

Modifica el nombre y el tipo del campo.

Quitar

Elimina el campo seleccionado de la salida.

Subir/Bajar

Reordena el campo seleccionado.