Escribir en archivo Hive

La etapa Write to Hive File escribe la entrada del flujo de datos para el archivo de salida Hive específico.

Puede seleccionar cualquiera de los formatos de archivo Hive admitidos para el archivo de salida:

ORC
RC
Parquet
Avro

Ficha Propiedades del archivo

Tabla 1. Propiedades de archivo comunes
Campos	Descripción
Server name (Nombre de servidor)	Indica que el archivo seleccionado en el campo Nombre de archivo está ubicado en el sistema Hadoop. Una vez que selecciona un archivo ubicado en un sistema Hadoop, el Nombre del servidor refleja el nombre del servidor de archivo correspondiente, según se encuentra especificado en Management Console.
Nombre de archivo	Haga clic en el botón de los puntos suspensivos (...) para navegar al archivo de salida Hive que se creará en el servidor de archivos Hadoop definido. Los datos de salida de esta etapa se escriben en el archivo seleccionado. Nota: Debe crear una conexión con el servidor de archivos Hadoop, requerido en Management Console, antes de usarlo en esta etapa.
Tipo de archivo	Seleccione uno de los cuatro formatos de archivo Hive admitidos: ORC RC Parquet Avro

Tabla 2. Propiedades del archivo ORC
Campos	Descripción
Tamaño de área	Define el tamaño de área que se asignará mientras se escribe a un archivo ORC. Esto se especifica en kilobytes. Nota: El tamaño de área predeterminado es `256` KB.
Tamaño de zancada	Define el tamaño de las zancadas que se crearán mientras se escribe a un archivo ORC. Esto se especifica en megabytes. Nota: El tamaño de zancada predeterminado es `64` MB.
Intervalo de índice de fila	Define la cantidad de filas que se escribirán entre dos entradas de índice de fila consecutivas. Nota: El intervalo de índice de fila predeterminado es `10000` filas.
Tipo de compresión	Define el tipo de compresión que se utilizará mientras se escribe a un archivo ORC. Los tipos de compresiones disponibles son ZLIB y SNAPPY. Nota: El tipo de compresión predeterminada es `ZLIB`.
Relleno	Indica si las zancadas tienen relleno para minimizar las zancadas que cruzan los límites de bloque HDFS, mientras se escribe a un archivo ORC. Nota: De forma predeterminada, la casilla de verificación Relleno está marcada.
Vista previa	Se recopilan los primeros 50 registros del archivo escrito y se muestran en la cuadrícula Vista previa, luego de que se ejecute el flujo de datos al menos una vez y que se hayan escrito los datos al archivo seleccionado.

Tabla 3. Propiedades del archivo RC
Campos	Descripción
Tamaño de área	Define el tamaño de área que se asignará mientras se escribe a un archivo RC. Esto se especifica en kilobytes. Nota: El tamaño de área predeterminado es `256` KB.
Tamaño del bloque	Define el tamaño de los bloques que se crearán mientras se escribe a un archivo RC. Esto se especifica en megabytes. Nota: El tamaño de bloque predeterminado es `64` MB.
Tipo de compresión	Define el tipo de compresión que se utilizará mientras se escribe a un archivo RC. Los tipos de compresiones disponibles son NONE y DEFLATE. Nota: El tipo de compresión predeterminada es `NONE`.
Vista previa	Se recopilan los primeros 50 registros del archivo escrito y se muestran en la cuadrícula Vista previa, luego de que se ejecute el flujo de datos al menos una vez y que se hayan escrito los datos al archivo seleccionado. La ficha Campos se utiliza para definir la secuencia y el tipo de datos de los campos obligatorios. Nota: Para el tipo de archivo RC, debe definir los metadatos del archivo de salida antes de hacer clic en Vista previa para cargar la cuadrícula Vista previa.

Tabla 4. Propiedades del archivo Parquet
Campos	Descripción
Tipo de compresión	Define el tipo de compresión que se utilizará mientras se escribe a un archivo PARQUET. Los tipos de compresiones disponibles son `UNCOMPRESSED`, `GZIP` y `SNAPPY`. Nota: El tipo de compresión predeterminada es `UNCOMPRESSED`.
Tamaño del bloque	Define el tamaño del bloque que se creará mientras se escribe a un archivo PARQUET. Esto se especifica en megabytes. Nota: El tamaño de bloque predeterminado es `128` MB.
Tamaño de la página	El tamaño de la página es para la compresión. Cuando lee, cada página puede descomprimirse de forma independiente. Esto se especifica en kilobytes. Nota: El tamaño de la página predeterminada es `1024` KB.
Activar diccionario	Para activar/desactivar la codificación del diccionario. Atención: El diccionario debe activarse para que el Tamaño de la página del diccionario se habilite. Nota: El valor predeterminado es `true`.
Tamaño de la página del diccionario	Hay una página del diccionario por columna por grupo de filas cuando se utiliza la codificación del diccionario. El tamaño de la página del diccionario funciona como el tamaño de página. Esto se especifica en kilobytes. Nota: El tamaño de la página del diccionario predeterminado es `1024` KB.
Versión de escritor	Parquet admite dos versiones API de escritor: `PARQUET_1_0` y `PARQUET_2_0`. Nota: El valor predeterminado es `PARQUET_1_0`.
Vista previa	Se recopilan los primeros 50 registros del archivo escrito y se muestran en la cuadrícula Vista previa, luego de que se ejecute el flujo de datos al menos una vez y que se hayan escrito los datos al archivo seleccionado.

Tabla 5. Propiedades del archivo Avro
Campos	Descripción
Intervalo de sincronización (en bytes)	Especifica la cantidad aproximada de bytes sin comprimir que se van a escribir en cada bloque. Los valores válidos oscilan entre 32 y 2^30. Sin embargo, se sugiere conservar el intervalo de sincronización entre 2K y 2M. Nota: El intervalo de sincronización predeterminado es `16000`.
Compresión	Define el tipo de compresión que se utilizará mientras se escribe a un archivo Avro. Los tipos de compresiones disponibles son NONE, SNAPPY y DEFLATE. Elegir la compresión DEFLATE le brinda la opción adicional de seleccionar el nivel de compresión (que se describe a continuación). Nota: El tipo de compresión predeterminada es `NONE`.
Nivel de compresión	Este campo se muestra si selecciona la opción `DEFLATE` en el campo Compresión que está arriba. Puede tener valores que oscilen entre `0` y `9`, donde `0` indica que no existe compresión. El nivel de compresión aumenta de `1` a `9`, con un aumento simultáneo en el tiempo que se utiliza para comprimir los datos. Nota: El nivel de compresión predeterminado es `1`.
Vista previa	Se recopilan los primeros 50 registros del archivo escrito, y se muestran en esta cuadrícula, luego de que se ejecute el flujo de datos al menos una vez y que se escriban los datos al archivo seleccionado.

Ficha Campos

La ficha Campos define los nombres y tipos de campos como se encuentran en el archivo de origen de esta etapa, y que se seleccionarán para que se escriban en el archivo de salida.

Para obtener más información, consulteDefinición de campos para la escritura de Hive File.

Ficha Tiempo de ejecución

La ficha Tiempo de ejecución brinda la opción de Sobrescribir un archivo existente del mismo nombre en el servidor de archivos Hadoop configurado. Si marca la casilla de verificación Sobrescribir, cuando ejecute el flujo de datos, el nuevo archivo de salida Hive sobrescribirá cualquier archivo existente que tenga el mismo nombre en el mismo servidor de archivos Hadoop.

De forma predeterminada, la casilla de verificación Sobrescribir está marcada.

Nota: Si no selecciona Sobrescribir, se arrojará una excepción cuando se ejecute el flujo de datos si el archivo que debe escribirse tiene el mismo nombre que un archivo existente en el mismo servidor de archivos Hadoop.