Escribir en archivo Hive

La etapa Write to Hive File escribe la entrada del flujo de datos para el archivo de salida Hive específico.

Puede seleccionar cualquiera de los formatos de archivo Hive admitidos para el archivo de salida:

  • ORC
  • RC
  • Parquet
  • Avro

Ficha Propiedades del archivo

Tabla 1. Propiedades de archivo comunes
Campos Descripción
Server name (Nombre de servidor) Indica que el archivo seleccionado en el campo Nombre de archivo está ubicado en el sistema Hadoop. Una vez que selecciona un archivo ubicado en un sistema Hadoop, el Nombre del servidor refleja el nombre del servidor de archivo correspondiente, según se encuentra especificado en Management Console.
Nombre de archivo Haga clic en el botón de los puntos suspensivos (...) para navegar al archivo de salida Hive que se creará en el servidor de archivos Hadoop definido. Los datos de salida de esta etapa se escriben en el archivo seleccionado.
Nota: Debe crear una conexión con el servidor de archivos Hadoop, requerido en Management Console, antes de usarlo en esta etapa.
Tipo de archivo Seleccione uno de los cuatro formatos de archivo Hive admitidos:
  • ORC
  • RC
  • Parquet
  • Avro
Tabla 2. Propiedades del archivo ORC
Campos Descripción
Tamaño de área Define el tamaño de área que se asignará mientras se escribe a un archivo ORC. Esto se especifica en kilobytes.
Nota: El tamaño de área predeterminado es 256 KB.
Tamaño de zancada Define el tamaño de las zancadas que se crearán mientras se escribe a un archivo ORC. Esto se especifica en megabytes.
Nota: El tamaño de zancada predeterminado es 64 MB.
Intervalo de índice de fila Define la cantidad de filas que se escribirán entre dos entradas de índice de fila consecutivas.
Nota: El intervalo de índice de fila predeterminado es 10000 filas.
Tipo de compresión Define el tipo de compresión que se utilizará mientras se escribe a un archivo ORC. Los tipos de compresiones disponibles son ZLIB y SNAPPY.
Nota: El tipo de compresión predeterminada es ZLIB.
Relleno Indica si las zancadas tienen relleno para minimizar las zancadas que cruzan los límites de bloque HDFS, mientras se escribe a un archivo ORC.
Nota: De forma predeterminada, la casilla de verificación Relleno está marcada.
Vista previa Se recopilan los primeros 50 registros del archivo escrito y se muestran en la cuadrícula Vista previa, luego de que se ejecute el flujo de datos al menos una vez y que se hayan escrito los datos al archivo seleccionado.
Tabla 3. Propiedades del archivo RC
Campos Descripción
Tamaño de área Define el tamaño de área que se asignará mientras se escribe a un archivo RC. Esto se especifica en kilobytes.
Nota: El tamaño de área predeterminado es 256 KB.
Tamaño del bloque Define el tamaño de los bloques que se crearán mientras se escribe a un archivo RC. Esto se especifica en megabytes.
Nota: El tamaño de bloque predeterminado es 64 MB.
Tipo de compresión Define el tipo de compresión que se utilizará mientras se escribe a un archivo RC. Los tipos de compresiones disponibles son NONE y DEFLATE.
Nota: El tipo de compresión predeterminada es NONE.
Vista previa Se recopilan los primeros 50 registros del archivo escrito y se muestran en la cuadrícula Vista previa, luego de que se ejecute el flujo de datos al menos una vez y que se hayan escrito los datos al archivo seleccionado.

La ficha Campos se utiliza para definir la secuencia y el tipo de datos de los campos obligatorios.

Nota: Para el tipo de archivo RC, debe definir los metadatos del archivo de salida antes de hacer clic en Vista previa para cargar la cuadrícula Vista previa.
Tabla 4. Propiedades del archivo Parquet
Campos Descripción
Tipo de compresión Define el tipo de compresión que se utilizará mientras se escribe a un archivo PARQUET. Los tipos de compresiones disponibles son UNCOMPRESSED, GZIP y SNAPPY.
Nota: El tipo de compresión predeterminada es UNCOMPRESSED.
Tamaño del bloque Define el tamaño del bloque que se creará mientras se escribe a un archivo PARQUET. Esto se especifica en megabytes.
Nota: El tamaño de bloque predeterminado es 128 MB.
Tamaño de la página El tamaño de la página es para la compresión. Cuando lee, cada página puede descomprimirse de forma independiente. Esto se especifica en kilobytes.
Nota: El tamaño de la página predeterminada es 1024 KB.
Activar diccionario Para activar/desactivar la codificación del diccionario.
Atención: El diccionario debe activarse para que el Tamaño de la página del diccionario se habilite.
Nota: El valor predeterminado es true.
Tamaño de la página del diccionario Hay una página del diccionario por columna por grupo de filas cuando se utiliza la codificación del diccionario. El tamaño de la página del diccionario funciona como el tamaño de página. Esto se especifica en kilobytes.
Nota: El tamaño de la página del diccionario predeterminado es 1024 KB.
Versión de escritor Parquet admite dos versiones API de escritor: PARQUET_1_0 y PARQUET_2_0.
Nota: El valor predeterminado es PARQUET_1_0.
Vista previa Se recopilan los primeros 50 registros del archivo escrito y se muestran en la cuadrícula Vista previa, luego de que se ejecute el flujo de datos al menos una vez y que se hayan escrito los datos al archivo seleccionado.
Tabla 5. Propiedades del archivo Avro
Campos Descripción
Intervalo de sincronización (en bytes) Especifica la cantidad aproximada de bytes sin comprimir que se van a escribir en cada bloque. Los valores válidos oscilan entre 32 y 2^30. Sin embargo, se sugiere conservar el intervalo de sincronización entre 2K y 2M.
Nota: El intervalo de sincronización predeterminado es 16000.
Compresión Define el tipo de compresión que se utilizará mientras se escribe a un archivo Avro. Los tipos de compresiones disponibles son NONE, SNAPPY y DEFLATE. Elegir la compresión DEFLATE le brinda la opción adicional de seleccionar el nivel de compresión (que se describe a continuación).
Nota: El tipo de compresión predeterminada es NONE.
Nivel de compresión

Este campo se muestra si selecciona la opción DEFLATE en el campo Compresión que está arriba.

Puede tener valores que oscilen entre 0 y 9, donde 0 indica que no existe compresión. El nivel de compresión aumenta de 1 a 9, con un aumento simultáneo en el tiempo que se utiliza para comprimir los datos.

Nota: El nivel de compresión predeterminado es 1.
Vista previa Se recopilan los primeros 50 registros del archivo escrito, y se muestran en esta cuadrícula, luego de que se ejecute el flujo de datos al menos una vez y que se escriban los datos al archivo seleccionado.

Ficha Campos

La ficha Campos define los nombres y tipos de campos como se encuentran en el archivo de origen de esta etapa, y que se seleccionarán para que se escriban en el archivo de salida.

Para obtener más información, consulteDefinición de campos para la escritura de Hive File.

Ficha Tiempo de ejecución

La ficha Tiempo de ejecución brinda la opción de Sobrescribir un archivo existente del mismo nombre en el servidor de archivos Hadoop configurado. Si marca la casilla de verificación Sobrescribir, cuando ejecute el flujo de datos, el nuevo archivo de salida Hive sobrescribirá cualquier archivo existente que tenga el mismo nombre en el mismo servidor de archivos Hadoop.

De forma predeterminada, la casilla de verificación Sobrescribir está marcada.
Nota: Si no selecciona Sobrescribir, se arrojará una excepción cuando se ejecute el flujo de datos si el archivo que debe escribirse tiene el mismo nombre que un archivo existente en el mismo servidor de archivos Hadoop.