Conexión con Hadoop

Conéctese al sistema Hadoop para usar las etapas, como Read from Hadoop Sequence File, Write to Hadoop Sequence File, Read From File, Write to File, Read from XML, Write to XML, Read From Hive File, Escribir en archivo Hive y Archivo Read From HL7, en Enterprise Designer.

Atención: Spectrum™ Technology Platform no admite Hadoop 2.x para Kerberos en plataformas Windows.

Siga estos pasos para conectarse al sistema Hadoop:

Acceda a la página Fuentes de datos mediante uno de estos módulos:
Management Console:
Acceda a Management Console a través de la dirección URL: http://server:port/managementconsole, donde server es el nombre del servidor o la dirección IP del Spectrum™ Technology Platform servidor y port es el puerto HTTP que usa Spectrum™ Technology Platform.
Nota: De manera predeterminada, el puerto HTTP es 8080.

Vaya a Recursos > Fuentes de datos.

Metadata Insights:
Acceda a Metadata Insights a través de la dirección URL: http://server:port/metadata-insights, donde server es el nombre del servidor o la dirección IP del Spectrum™ Technology Platform servidor y port es el puerto HTTP que usa Spectrum™ Technology Platform.
Nota: De manera predeterminada, el puerto HTTP es 8080.

Vaya a Fuentes de datos.
Haga clic en el botón Agregar .
En el campo Nombre, ingrese un nombre para la conexión. El nombre puede ser cualquiera que elija.

Nota: Una vez que guardó una conexión, no puede cambiarle el nombre.
En el campo Tipo, seleccione HDFS.
En el campo Host, ingrese el nombre de host o la dirección IP de NameNode en el clúster HDFS.
En el campo Puerto ingrese el número de puerto de red.
En Usuario, seleccione una de las siguientes opciones:
Usuario del servidor
Escoja esta opción si está activada la autenticación en su clúster HDFS. Esta opción utilizará las credenciales de usuario que ejecuta el servidor de Spectrum™ Technology Platform para autenticar en HDFS.

Nombre de usuario
Escoja esta opción si está desactivada la autenticación en su clúster HDFS.
Marque la casilla Kerberos si desea activar la función de autenticación de Kerberos para esta conexión de servidor de archivos HDFS.
Si ha optado por activar la autenticación de Kerberos, entonces ingrese la ruta en el archivo keytab en el campo Ruta del archivo keytab.

Nota: Asegúrese de que el archivo keytab esté en el servidor de Spectrum™ Technology Platform.
En el campo Protocolo, seleccione una de las siguientes opciones:
WEBHDFS
Seleccione esta opción si el clúster HDFS está ejecutando HDFS 1.0 o una versión posterior. Este protocolo admite operaciones de lectura y escritura.

HFTP
Seleccione esta opción si el clúster HDFS está ejecutando una versión anterior a HDFS 1.0 o si su organización no permite el protocolo WEBHDFS. Este protocolo solo admite la operación de lectura.

HAR
Seleccione esta opción para acceder a archivos de Hadoop. Si escoge esta opción, especifique la ruta de acceso hacia el archivo en el campo Ruta de acceso. Este protocolo solo admite la operación de lectura.
Expanda las opciones avanzadas.
Si seleccionó el protocolo WEBHDFS, puede especificar las siguientes opciones avanzadas según se requiera:
Factor de replicación
Especifica cuántos datos replicará cada nodo en cada bloque. Por ejemplo, la configuración predeterminada de 3 replica cada bloque en tres nodos diferentes en el clúster. El factor de replicación máximo es 1024.

Tamaño del bloque
Especifica el tamaño de cada bloque. HDFS divide un archivo en bloques del tamaño que especifique aquí. Por ejemplo, si especifica el valor predeterminado de 64 MB, cada archivo se divide en bloques de 64 MB. Luego, cada bloque se replica en la cantidad de nodos en el clúster que se especifica en el campo Factor de replicación.

Permisos de archivo
Especifica el nivel de acceso a los archivos que Spectrum™ Technology Platform escribe en el clúster HDFS. Puede especificar los permisos de lectura y escritura para cada una de las siguientes opciones:
Nota: El permiso de ejecución no es válido para Spectrum™ Technology Platform.
Usuario
Este el usuario que se especificó arriba, ya sea el Usuario del servidor o el usuario especificado en el campo Nombre del usuario.

Grupo
Esto se refiere a cualquier grupo al que pertenece el usuario. Por ejemplo, si el usuario es john123, entonces los permisos de grupo se aplican a cualquier grupo al que pertenece john123.

Otros
Esto se refiere a cualquier otro usuario o también grupos de usuarios a los cuales no pertenece el usuario especificado.
Use las descripciones de Permisos de archivo a continuación para definir las propiedades de servidor para que Hadoop garantice que las funciones de clasificación y filtrado funcionen como se desea cuando se usa la conexión en una actividad o etapa. Para agregar propiedades, complete uno de los siguientes pasos:
- Haga clic en y agregue las propiedades y sus valores respectivos en los campos Propiedad y Valor.
- Haga clic en y cargue su archivo XML de configuración. El archivo XML debe ser similar a hdfs-site.xml, yarn-site.xml, o core-site.xml.
  Nota: Coloque el archivo de configuración en el servidor.
Permisos y parámetros de archivo: Hadoop 1.x
Esta sección es válida para esta etapa y actividad:
- Etapa: Read from Sequence File
- Actividad: Run Hadoop Pig
fs.default.name

Especifica el nodo y el puerto donde se ejecuta Hadoop. Por ejemplo, hdfs://152.144.226.224:9000

mapred.job.tracker

Especifica el nombre de host o la dirección IP y el puerto en el que se ejecuta el rastreador de trabajo MapReduce. Si el nombre de host se ingresa como local, los trabajos se ejecutan como un mapa simple y reducen la tarea. Por ejemplo, 152.144.226.224:9001

dfs.namenode.name.dir

Especifica en qué lugar del sistema de archivos locales, un nodo de nombre DFS debe guardar la tabla con nombre. Si es una lista de directorios delimitada por comas, la tabla con nombre se replica en todos los directorios, para propósitos de redundancia. Por ejemplo, file:/home/hduser/Data/namenode

hadoop.tmp.dir

Especifica la ubicación base de otros directorios temporales. Por ejemplo, /home/hduser/Data/tmp
Permisos y parámetros de archivo: Hadoop 2.x
Esta sección es válida para esta etapa y actividad:
- Etapa: Read from Sequence File
- Actividad: Run Hadoop Pig
fs.defaultFS

Especifica el nodo y el puerto donde se ejecuta Hadoop. Por ejemplo, hdfs://152.144.226.224:9000.

NOTA: En el caso de las versiones de Spectrum 11.0 y anteriores, se debe utilizar el nombre del parámetro fs.defaultfs. Tenga en cuenta la diferencia entre mayúsculas y minúsculas. En el caso de las versiones 11 SP1 y posteriores, tanto fs.defaultfs como fs.defaultFS son válidos. Recomendamos usar el nombre del parámetro fs.defaultFS con las versiones 11.0 SP1 y posteriores.

yarn.resourcemanager.resource-tracker.address

Especifica el nombre de host o la dirección IP del administrador de recursos. Por ejemplo, 152.144.226.224:8025

yarn.resourcemanager.scheduler.address

Especifica la dirección de la interfaz del programador. Por ejemplo, 152.144.226.224:8030

yarn.resourcemanager.address

Especifica la dirección de la interfaz del administrador de aplicaciones, que se incluye en el administrador de recursos. Por ejemplo, 152.144.226.224:8041

mapreduce.jobhistory.address

Especifica el nombre de host o la dirección IP y el puerto en el que se ejecuta el servidor del historial de trabajos de MapReduce. Por ejemplo, 152.144.226.224:10020

mapreduce.application.classpath

Especifica el elemento CLASSPATH para las aplicaciones de Map Reduce. El elemento CLASSPATH denota la ubicación donde se encuentran las clases relacionadas con las aplicaciones de Map Reduce. Las entradas deben estar separadas por comas.

Por ejemplo:

$HADOOP_CONF_DIR, $HADOOP_COMMON_HOME/share/hadoop/common/*, $HADOOP_COMMON_HOME/share/hadoop/common/lib/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*, $HADOOP_YARN_HOME/share/hadoop/yarn/*, $HADOOP_YARN_HOME/share/hadoop/yarn/lib/*

mapreduce.app-submission.cross-platform

Maneja diversos problemas de plataforma que surgen si el servidor Spectrum se ejecuta en un equipo con Windows y se le instala Cloudera. Si el servidor Spectrum y Cloudera se están ejecutando en distintos sistemas operativos, entonces ingrese el valor de este parámetro como verdadero. De lo contrario, márquelo como falso.
Nota: Cloudera no es compatible con clientes de Windows. La configuración de este parámetro es una solución temporal, y no una solución a todos los problemas de la plataforma.
Permisos y parámetros de archivo: Kerberos
Esta sección es válida para esta etapa y actividad:
- Etapa: Read from Sequence File
- Actividad: Run Hadoop Pig
Si marcó la casilla de verificación Kerberos, agregue las siguientes propiedades de configuración de Kerberos:

hadoop.security.authentication

El tipo de seguridad con autenticación que se usará. Ingrese el valor de kerberos.

yarn.resourcemanager.principal

El Kerberos principal que se utiliza para el administrador de recursos para su negociador de recursos Hadoop YARN. Por ejemplo: yarn/_HOST@HADOOP.COM

dfs.namenode.kerberos.principal

El Kerberos principal que se utiliza para el namenode de su Hadoop Distributed File System (HDFS). Por ejemplo, hdfs/_HOST@HADOOP.COM

dfs.datanode.kerberos.principal

El Kerberos principal que se utiliza para el datanode de su Hadoop Distributed File System (HDFS). Por ejemplo, hdfs/_HOST@HADOOP.COM
Permisos y parámetros de archivo: Hadoop 1.x
Esta sección es válida para todas las etapas:
- Etapa Read from File
- Etapa Write to File
- Nueva etapa Read from Hive ORC File
- Etapa Write to Hive ORC File
fs.default.name

Especifica el nodo y el puerto donde se ejecuta Hadoop. Por ejemplo, hdfs://152.144.226.224:9000
Permisos y parámetros de archivo: Hadoop 2.x
Esta sección es válida para todas las etapas:
- Etapa Read or write from File
- Etapa Read or write from Hive ORC File
fs.defaultFS

Especifica el nodo y el puerto donde se ejecuta Hadoop. Por ejemplo, hdfs://152.144.226.224:9000

NOTA: En el caso de las versiones de Spectrum 11.0 y anteriores, se debe utilizar el nombre del parámetro fs.defaultfs. Tenga en cuenta la diferencia entre mayúsculas y minúsculas. En el caso de las versiones 11 SP1 y posteriores, tanto fs.defaultfs como fs.defaultFS son válidos. Recomendamos usar el nombre del parámetro fs.defaultFS con las versiones 11.0 SP1 y posteriores.
Para probar la conexión, haga clic en Probar.
Haga clic en Guardar.

Después de definir una conexión a un clúster HDFS, queda disponible en las etapas de origen y recepción en Enterprise Designer, como Read from File y Write to File. Puede seleccionar el clúster HDFS cuando hace clic en Equipo remoto para definir un archivo en una etapa de origen o recepción.