Conexión con Hadoop

A fin de que Spectrum™ Technology Platform acceda a los datos en Hadoop, debe definir una conexión con Hadoop mediante Management Console. Una vez que lo hace, puede crear flujos en Enterprise Designer para leer o escribir datos en Hadoop.

Atención: Spectrum™ Technology Platform no admite Hadoop 2.x para Kerberos en plataformas Windows.

Abra Management Console.
Vaya a Recursos > Orígenes de datos.
Haga clic en el botón Agregar .
En el campo Nombre, ingrese un nombre para la conexión. El nombre puede ser cualquiera que elija.

Nota: Una vez que guardó una conexión, no puede cambiarle el nombre.
En el campo Tipo, seleccione HDFS.
En el campo Host, ingrese el nombre de host o la dirección IP de NameNode en el clúster HDFS.
En el campo Puerto ingrese el número de puerto de red.
En Usuario, seleccione una de las siguientes opciones:
Usuario del servidor

Escoja esta opción si está activada la autenticación en su clúster HDFS. Esta opción utilizará las credenciales de usuario que ejecuta el servidor de Spectrum™ Technology Platform para autenticar en HDFS.

Nombre de usuario

Escoja esta opción si está desactivada la autenticación en su clúster HDFS.
Marque la casilla Kerberos si desea activar la función de autenticación de Kerberos para esta conexión de servidor de archivos HDFS.
Si ha optado por activar la autenticación de Kerberos, entonces ingrese la ruta en el archivo keytab en el campo Ruta del archivo keytab.

Nota: Asegúrese de que el archivo keytab esté en el servidor de Spectrum™ Technology Platform.
En el campo Protocolo, seleccione una de las siguientes opciones:
WEBHDFS

Seleccione esta opción si el clúster HDFS está ejecutando HDFS 1.0 o una versión posterior. Este protocolo admite operaciones de lectura y escritura.

HFTP

Seleccione esta opción si el clúster HDFS está ejecutando una versión anterior a HDFS 1.0 o si su organización no permite el protocolo WEBHDFS. Este protocolo solo admite la operación de lectura.

HAR

Seleccione esta opción para acceder a archivos de Hadoop. Si escoge esta opción, especifique la ruta de acceso hacia el archivo en el campo Ruta de acceso. Este protocolo solo admite la operación de lectura.
Expanda las opciones avanzadas.
Si seleccionó el protocolo WEBHDFS, puede especificar las siguientes opciones avanzadas según se requiera:
Factor de replicación

Especifica cuántos datos replicará cada nodo en cada bloque. Por ejemplo, la configuración predeterminada de 3 replica cada bloque en tres nodos diferentes en el clúster. El factor de replicación máximo es 1024.

Tamaño del bloque

Especifica el tamaño de cada bloque. HDFS divide un archivo en bloques del tamaño que especifique aquí. Por ejemplo, si especifica el valor predeterminado de 64 MB, cada archivo se divide en bloques de 64 MB. Luego, cada bloque se replica en la cantidad de nodos en el clúster que se especifica en el campo Factor de replicación.

Permisos de archivo

Especifica el nivel de acceso a los archivos que Spectrum™ Technology Platform escribe en el clúster HDFS. Puede especificar los permisos de lectura y escritura para cada una de las siguientes opciones:
Nota: El permiso de ejecución no es válido para Spectrum™ Technology Platform.

Usuario

Este el usuario que se especificó arriba, ya sea el Usuario del servidor o el usuario especificado en el campo Nombre del usuario.

Grupo

Esto se refiere a cualquier grupo al que pertenece el usuario. Por ejemplo, si el usuario es john123, entonces los permisos de grupo se aplican a cualquier grupo al que pertenece john123.

Otros

Esto se refiere a cualquier otro usuario o también grupos de usuarios a los cuales no pertenece el usuario especificado.

En la cuadrícula debajo de la tabla Permisos de archivo, especifique las propiedades del servidor para que Hadoop garantice que las funciones de clasificación y filtro se desempeñen como se desea cuando se usa la conexión en una actividad o etapa.

Para agregar una nueva propiedad, haga clic en .

Defina las propiedades, según lo descrito en la tabla, y según la etapa o actividad que usará la conexión Hadoop, así como si se emplea Hadoop 1.x o Hadoop 2.x.

Etapa o actividad que usa la conexión HDFS	Propiedades requeridas del servidor
Etapa Read from Sequence File Actividad Run Hadoop Pig	Parámetros de Hadoop 1.x fs.default.name Especifica el nodo y el puerto donde se ejecuta Hadoop. Por ejemplo, `hdfs://152.144.226.224:9000` mapred.job.tracker Especifica el nombre de host o la dirección IP y el puerto en el que se ejecuta el rastreador de trabajo MapReduce. Si el nombre de host se ingresa como local, los trabajos se ejecutan como un mapa simple y reducen la tarea. Por ejemplo, `152.144.226.224:9001` dfs.namenode.name.dir Especifica en qué lugar del sistema de archivos locales, un nodo de nombre DFS debe guardar la tabla con nombre. Si es una lista de directorios delimitada por comas, la tabla con nombre se replica en todos los directorios, para propósitos de redundancia. Por ejemplo, `file:/home/hduser/Data/namenode` dfs.datanode.data.dir Especifica en qué lugar del sistema de archivos locales un nodo de nombre DFS debe guardar sus bloques. Si es una lista de directorios delimitada por comas, los datos se almacenarán en todos los directorios con nombre asignado que normalmente están en distintos dispositivos. Se ignoran los directorios que no existen. Por ejemplo, `file:/home/hduser/Data/datanode` hadoop.tmp.dir Especifica la ubicación base de otros directorios temporales. Por ejemplo, `/home/hduser/Data/tmp` Parámetros de Hadoop 2.x fs.defaultFS Especifica el nodo y el puerto donde se ejecuta Hadoop. Por ejemplo, `hdfs://152.144.226.224:9000`. Nota: Se recomienda usar el nombre del parámetro fs.defaultFS a partir de Spectrum™ Technology Platform 11 SP1. yarn.resourcemanager.resource-tracker.address Especifica el nombre de host o la dirección IP del administrador de recursos. Por ejemplo, `152.144.226.224:8025` yarn.resourcemanager.scheduler.address Especifica la dirección de la interfaz del programador. Por ejemplo, `152.144.226.224:8030` yarn.resourcemanager.address Especifica la dirección de la interfaz del administrador de aplicaciones, que se incluye en el administrador de recursos. Por ejemplo, `152.144.226.224:8041` mapreduce.jobhistory.address Especifica el nombre de host o la dirección IP y el puerto en el que se ejecuta el servidor del historial de trabajos de MapReduce. Por ejemplo, `152.144.226.224:10020` mapreduce.application.classpath Especifica el elemento CLASSPATH para las aplicaciones de Map Reduce. El elemento CLASSPATH denota la ubicación donde se encuentran las clases relacionadas con las aplicaciones de Map Reduce. Nota: Las entradas deben estar separadas por comas. Por ejemplo: `$HADOOP_CONF_DIR, $HADOOP_COMMON_HOME/share/hadoop/common/, $HADOOP_COMMON_HOME/share/hadoop/common/lib/, $HADOOP_HDFS_HOME/share/hadoop/hdfs/, $HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/, $HADOOP_YARN_HOME/share/hadoop/yarn/, $HADOOP_YARN_HOME/share/hadoop/yarn/lib/` mapreduce.app-submission.cross-platform Maneja diversos problemas de plataforma que surgen si el servidor Spectrum se ejecuta en un equipo con Windows y se le instala Cloudera. Si el servidor Spectrum y Cloudera se están ejecutando en distintos sistemas operativos, entonces ingrese el valor de este parámetro como `verdadero`. De lo contrario, márquelo como `falso`. Nota: Cloudera no es compatible con clientes de Windows. La configuración de este parámetro es una solución temporal y no una solución a todos los problemas de la plataforma. Si ha marcado la casilla de verificación Kerberos anteriormente, entonces agregue las propiedades de configuración de Kerberos de manera adicional: hadoop.security.authentication El tipo de seguridad con autenticación que se usará. Ingrese el valor de `kerberos`. yarn.resourcemanager.principal El Kerberos principal que se utiliza para el administrador de recursos para su negociador de recursos Hadoop YARN. Por ejemplo, `yarn/_HOST@HADOOP.COM` dfs.namenode.kerberos.principal El Kerberos principal que se utiliza para el namenode de su Hadoop Distributed File System (HDFS). Por ejemplo, `hdfs/_HOST@HADOOP.COM` dfs.datanode.kerberos.principal El Kerberos principal que se utiliza para el datanode de su Hadoop Distributed File System (HDFS). Por ejemplo, `hdfs/_HOST@HADOOP.COM`
Etapa Read from File Etapa Write to File Nueva etapa Read from Hive ORC File Etapa Write to Hive ORC File	Parámetros de Hadoop 1.x fs.default.name Especifica el nodo y el puerto donde se ejecuta Hadoop. Por ejemplo, `hdfs://152.144.226.224:9000` Parámetros de Hadoop 2.x fs.defaultFS Especifica el nodo y el puerto donde se ejecuta Hadoop. Por ejemplo, `hdfs://152.144.226.224:9000`. Nota: Se recomienda usar el nombre del parámetro fs.defaultFS a partir de Spectrum™ Technology Platform 11 SP1.

Etapa o actividad que usa la conexión HDFS

Propiedades requeridas del servidor

Etapa Read from Sequence File
Actividad Run Hadoop Pig

Parámetros de Hadoop 1.x

fs.default.name: Especifica el nodo y el puerto donde se ejecuta Hadoop.
Por ejemplo, hdfs://152.144.226.224:9000
mapred.job.tracker: Especifica el nombre de host o la dirección IP y el puerto en el que se ejecuta el rastreador de trabajo MapReduce. Si el nombre de host se ingresa como local, los trabajos se ejecutan como un mapa simple y reducen la tarea.
Por ejemplo, 152.144.226.224:9001
dfs.namenode.name.dir: Especifica en qué lugar del sistema de archivos locales, un nodo de nombre DFS debe guardar la tabla con nombre. Si es una lista de directorios delimitada por comas, la tabla con nombre se replica en todos los directorios, para propósitos de redundancia.
Por ejemplo, file:/home/hduser/Data/namenode
dfs.datanode.data.dir: Especifica en qué lugar del sistema de archivos locales un nodo de nombre DFS debe guardar sus bloques. Si es una lista de directorios delimitada por comas, los datos se almacenarán en todos los directorios con nombre asignado que normalmente están en distintos dispositivos. Se ignoran los directorios que no existen.
Por ejemplo, file:/home/hduser/Data/datanode
hadoop.tmp.dir: Especifica la ubicación base de otros directorios temporales.
Por ejemplo, /home/hduser/Data/tmp

Parámetros de Hadoop 2.x

fs.defaultFS: Especifica el nodo y el puerto donde se ejecuta Hadoop.
Por ejemplo, hdfs://152.144.226.224:9000.

Nota: Se recomienda usar el nombre del parámetro fs.defaultFS a partir de Spectrum™ Technology Platform 11 SP1.
yarn.resourcemanager.resource-tracker.address: Especifica el nombre de host o la dirección IP del administrador de recursos.
Por ejemplo, 152.144.226.224:8025
yarn.resourcemanager.scheduler.address: Especifica la dirección de la interfaz del programador.
Por ejemplo, 152.144.226.224:8030
yarn.resourcemanager.address: Especifica la dirección de la interfaz del administrador de aplicaciones, que se incluye en el administrador de recursos.
Por ejemplo, 152.144.226.224:8041
mapreduce.jobhistory.address: Especifica el nombre de host o la dirección IP y el puerto en el que se ejecuta el servidor del historial de trabajos de MapReduce.
Por ejemplo, 152.144.226.224:10020
mapreduce.application.classpath: Especifica el elemento CLASSPATH para las aplicaciones de Map Reduce. El elemento CLASSPATH denota la ubicación donde se encuentran las clases relacionadas con las aplicaciones de Map Reduce.
Nota: Las entradas deben estar separadas por comas.

Por ejemplo:
$HADOOP_CONF_DIR, $HADOOP_COMMON_HOME/share/hadoop/common/*, $HADOOP_COMMON_HOME/share/hadoop/common/lib/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*, $HADOOP_YARN_HOME/share/hadoop/yarn/*, $HADOOP_YARN_HOME/share/hadoop/yarn/lib/*

mapreduce.app-submission.cross-platform: Maneja diversos problemas de plataforma que surgen si el servidor Spectrum se ejecuta en un equipo con Windows y se le instala Cloudera. Si el servidor Spectrum y Cloudera se están ejecutando en distintos sistemas operativos, entonces ingrese el valor de este parámetro como verdadero. De lo contrario, márquelo como falso.
Nota: Cloudera no es compatible con clientes de Windows. La configuración de este parámetro es una solución temporal y no una solución a todos los problemas de la plataforma.

Si ha marcado la casilla de verificación Kerberos anteriormente, entonces agregue las propiedades de configuración de Kerberos de manera adicional:

hadoop.security.authentication: El tipo de seguridad con autenticación que se usará. Ingrese el valor de kerberos.
yarn.resourcemanager.principal: El Kerberos principal que se utiliza para el administrador de recursos para su negociador de recursos Hadoop YARN.
Por ejemplo, yarn/_HOST@HADOOP.COM
dfs.namenode.kerberos.principal: El Kerberos principal que se utiliza para el namenode de su Hadoop Distributed File System (HDFS).
Por ejemplo, hdfs/_HOST@HADOOP.COM
dfs.datanode.kerberos.principal: El Kerberos principal que se utiliza para el datanode de su Hadoop Distributed File System (HDFS).
Por ejemplo, hdfs/_HOST@HADOOP.COM

Etapa Read from File
Etapa Write to File
Nueva etapa Read from Hive ORC File
Etapa Write to Hive ORC File

Parámetros de Hadoop 1.x

fs.default.name: Especifica el nodo y el puerto donde se ejecuta Hadoop.
Por ejemplo, hdfs://152.144.226.224:9000

Parámetros de Hadoop 2.x

fs.defaultFS: Especifica el nodo y el puerto donde se ejecuta Hadoop.
Por ejemplo, hdfs://152.144.226.224:9000.

Nota: Se recomienda usar el nombre del parámetro fs.defaultFS a partir de Spectrum™ Technology Platform 11 SP1.

Para probar la conexión, haga clic en Probar.
Haga clic en Guardar.

Después de definir una conexión a un clúster HDFS, queda disponible en las etapas de origen y recepción en Enterprise Designer, como Read from File y Write to File. Puede seleccionar el clúster HDFS cuando hace clic en Equipo remoto para definir un archivo en una etapa de origen o recepción.