Read from Hadoop Sequence File
La etapa Read from Hadoop Sequence File permite leer datos desde un archivo de secuencia como entrada a un flujo de datos. Un archivo de secuencia es un archivo simple que consta de pares de clave/valor binarios. Para obtener más información, visite http://wiki.apache.org/hadoop/SequenceFile.
- Conexión con Hadoop: para poder leer un archivo ubicado en el sistema Hadoop o para escribir un archivo allí, debe crear una conexión al servidor de archivo Hadoop. Una vez realizado esto, el nombre que usó para guardar la conexión se muestra como el nombre de servidor.
Pestaña Propiedades del archivo
Campos | Descripción |
---|---|
Servidor | Indica que el archivo que seleccionó en el campo Nombre de archivo está ubicado en el sistema Hadoop. Nota: Debe crear una conexión con el servidor de archivos Hadoop, antes de usarlo en esta etapa. Para obtener más detalles sobre la creación de conexiones, consulte Conexión con Hadoop. Si selecciona un archivo en el sistema Hadoop, el nombre del servidor será el nombre que especifique mientras crea un servidor de archivos. |
Nombre de archivo | Especifica la ruta al archivo. Haga clic en el botón de los puntos suspensivos (…) para buscar el archivo que desea. |
Separador de campo |
Especifica el carácter que se utiliza para separar los campos en un archivo delimitado. Por ejemplo, este registro utiliza una barra vertical (|) como separador de campo:
Estos caracteres disponibles para definir como separadores de campo son:
Si el archivo utiliza un carácter distinto como separador de campo, haga clic en el botón de los puntos suspensivos para seleccionar otro carácter como delimitador. |
Text qualifier (Calificador de texto) |
El carácter que se utiliza para demarcar los valores de texto en un archivo delimitado. Por ejemplo, este registro utiliza comillas dobles (") como calificador de texto.
Los caracteres disponibles para definir como calificadores de texto son:
Si el archivo utiliza un calificador de texto distinto, haga clic en el botón de los puntos suspensivos para seleccionar otro carácter como calificador de texto. |
Pestaña Campos
La ficha Campos define los nombres, las posiciones y los tipos de campos en el archivo. Para obtener más información, consulteDefinición de campos en un archivo de secuencia de entrada.
Ficha Ordenar campos
La ficha Ordenar campos define los campos según los cuales se ordenan los registros de entrada antes de ser enviados al flujo de datos. La ordenación es opcional. Para obtener más información, consulteOrdenación de los registros de entrada.
Ficha Filtro
La ficha Campos define los campos según los cuales se filtran los registros de entrada antes de ser enviados al flujo de datos. Para obtener más información, consulteFiltrado de registros de entrada.