Conexión con Hadoop

A fin de que Spectrum™ Technology Platform acceda a los datos en Hadoop, debe definir una conexión con Hadoop mediante Management Console. Una vez que lo hace, puede crear flujos en Enterprise Designer para leer o escribir datos en Hadoop.

Atención: Spectrum™ Technology Platform no admite Hadoop 2.x para Kerberos en plataformas Windows.
  1. Abra Management Console.
  2. Vaya a Recursos > Orígenes de datos.
  3. Haga clic en el botón Agregar .
  4. En el campo Nombre, ingrese un nombre para la conexión. El nombre puede ser cualquiera que elija.
    Nota: Una vez que guardó una conexión, no puede cambiarle el nombre.
  5. En el campo Tipo, seleccione HDFS.
  6. En el campo Host, ingrese el nombre de host o la dirección IP de NameNode en el clúster HDFS.
  7. En el campo Puerto ingrese el número de puerto de red.
  8. En Usuario, seleccione una de las siguientes opciones:
    Usuario del servidor
    Escoja esta opción si está activada la autenticación en su clúster HDFS. Esta opción utilizará las credenciales de usuario que ejecuta el servidor de Spectrum™ Technology Platform para autenticar en HDFS.
    Nombre de usuario
    Escoja esta opción si está desactivada la autenticación en su clúster HDFS.
  9. Marque la casilla Kerberos si desea activar la función de autenticación de Kerberos para esta conexión de servidor de archivos HDFS.
  10. Si ha optado por activar la autenticación de Kerberos, entonces ingrese la ruta en el archivo keytab en el campo Ruta del archivo keytab.
    Nota: Asegúrese de que el archivo keytab esté en el servidor de Spectrum™ Technology Platform.
  11. En el campo Protocolo, seleccione una de las siguientes opciones:
    WEBHDFS
    Seleccione esta opción si el clúster HDFS está ejecutando HDFS 1.0 o una versión posterior. Este protocolo admite operaciones de lectura y escritura.
    HFTP
    Seleccione esta opción si el clúster HDFS está ejecutando una versión anterior a HDFS 1.0 o si su organización no permite el protocolo WEBHDFS. Este protocolo solo admite la operación de lectura.
    HAR
    Seleccione esta opción para acceder a archivos de Hadoop. Si escoge esta opción, especifique la ruta de acceso hacia el archivo en el campo Ruta de acceso. Este protocolo solo admite la operación de lectura.
  12. Expanda las opciones avanzadas.
  13. Si seleccionó el protocolo WEBHDFS, puede especificar las siguientes opciones avanzadas según se requiera:
    Factor de replicación
    Especifica cuántos datos replicará cada nodo en cada bloque. Por ejemplo, la configuración predeterminada de 3 replica cada bloque en tres nodos diferentes en el clúster. El factor de replicación máximo es 1024.
    Tamaño del bloque
    Especifica el tamaño de cada bloque. HDFS divide un archivo en bloques del tamaño que especifique aquí. Por ejemplo, si especifica el valor predeterminado de 64 MB, cada archivo se divide en bloques de 64 MB. Luego, cada bloque se replica en la cantidad de nodos en el clúster que se especifica en el campo Factor de replicación.
    Permisos de archivo
    Especifica el nivel de acceso a los archivos que Spectrum™ Technology Platform escribe en el clúster HDFS. Puede especificar los permisos de lectura y escritura para cada una de las siguientes opciones:
    Nota: El permiso de ejecución no es válido para Spectrum™ Technology Platform.
    Usuario
    Este el usuario que se especificó arriba, ya sea el Usuario del servidor o el usuario especificado en el campo Nombre del usuario.
    Grupo
    Esto se refiere a cualquier grupo al que pertenece el usuario. Por ejemplo, si el usuario es john123, entonces los permisos de grupo se aplican a cualquier grupo al que pertenece john123.
    Otros
    Esto se refiere a cualquier otro usuario o también grupos de usuarios a los cuales no pertenece el usuario especificado.
  14. En la cuadrícula debajo de la tabla Permisos de archivo, especifique las propiedades del servidor para que Hadoop garantice que las funciones de clasificación y filtro se desempeñen como se desea cuando se usa la conexión en una actividad o etapa.

    Para agregar una nueva propiedad, haga clic en .

    Defina las propiedades, según lo descrito en la tabla, y según la etapa o actividad que usará la conexión Hadoop, así como si se emplea Hadoop 1.x o Hadoop 2.x.

    Etapa o actividad que usa la conexión HDFS Propiedades requeridas del servidor
    • Etapa Read from Sequence File
    • Actividad Run Hadoop Pig
    Parámetros de Hadoop 1.x
    fs.default.name
    Especifica el nodo y el puerto donde se ejecuta Hadoop.

    Por ejemplo, hdfs://152.144.226.224:9000

    mapred.job.tracker
    Especifica el nombre de host o la dirección IP y el puerto en el que se ejecuta el rastreador de trabajo MapReduce. Si el nombre de host se ingresa como local, los trabajos se ejecutan como un mapa simple y reducen la tarea.

    Por ejemplo, 152.144.226.224:9001

    dfs.namenode.name.dir
    Especifica en qué lugar del sistema de archivos locales, un nodo de nombre DFS debe guardar la tabla con nombre. Si es una lista de directorios delimitada por comas, la tabla con nombre se replica en todos los directorios, para propósitos de redundancia.

    Por ejemplo, file:/home/hduser/Data/namenode

    dfs.datanode.data.dir
    Especifica en qué lugar del sistema de archivos locales un nodo de nombre DFS debe guardar sus bloques. Si es una lista de directorios delimitada por comas, los datos se almacenarán en todos los directorios con nombre asignado que normalmente están en distintos dispositivos. Se ignoran los directorios que no existen.

    Por ejemplo, file:/home/hduser/Data/datanode

    hadoop.tmp.dir
    Especifica la ubicación base de otros directorios temporales.

    Por ejemplo, /home/hduser/Data/tmp

    Parámetros de Hadoop 2.x

    fs.defaultFS
    Especifica el nodo y el puerto donde se ejecuta Hadoop.

    Por ejemplo, hdfs://152.144.226.224:9000.

    Nota: Se recomienda usar el nombre del parámetro fs.defaultFS a partir de Spectrum™ Technology Platform 11 SP1.
    yarn.resourcemanager.resource-tracker.address
    Especifica el nombre de host o la dirección IP del administrador de recursos.

    Por ejemplo, 152.144.226.224:8025

    yarn.resourcemanager.scheduler.address
    Especifica la dirección de la interfaz del programador.

    Por ejemplo, 152.144.226.224:8030

    yarn.resourcemanager.address
    Especifica la dirección de la interfaz del administrador de aplicaciones, que se incluye en el administrador de recursos.

    Por ejemplo, 152.144.226.224:8041

    mapreduce.jobhistory.address
    Especifica el nombre de host o la dirección IP y el puerto en el que se ejecuta el servidor del historial de trabajos de MapReduce.

    Por ejemplo, 152.144.226.224:10020

    mapreduce.application.classpath
    Especifica el elemento CLASSPATH para las aplicaciones de Map Reduce. El elemento CLASSPATH denota la ubicación donde se encuentran las clases relacionadas con las aplicaciones de Map Reduce.
    Nota: Las entradas deben estar separadas por comas.
    Por ejemplo:

    $HADOOP_CONF_DIR, $HADOOP_COMMON_HOME/share/hadoop/common/*, $HADOOP_COMMON_HOME/share/hadoop/common/lib/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*, $HADOOP_YARN_HOME/share/hadoop/yarn/*, $HADOOP_YARN_HOME/share/hadoop/yarn/lib/*

    mapreduce.app-submission.cross-platform
    Maneja diversos problemas de plataforma que surgen si el servidor Spectrum se ejecuta en un equipo con Windows y se le instala Cloudera. Si el servidor Spectrum y Cloudera se están ejecutando en distintos sistemas operativos, entonces ingrese el valor de este parámetro como verdadero. De lo contrario, márquelo como falso.
    Nota: Cloudera no es compatible con clientes de Windows. La configuración de este parámetro es una solución temporal y no una solución a todos los problemas de la plataforma.
    Si ha marcado la casilla de verificación Kerberos anteriormente, entonces agregue las propiedades de configuración de Kerberos de manera adicional:
    hadoop.security.authentication
    El tipo de seguridad con autenticación que se usará. Ingrese el valor de kerberos.
    yarn.resourcemanager.principal
    El Kerberos principal que se utiliza para el administrador de recursos para su negociador de recursos Hadoop YARN.

    Por ejemplo, yarn/_HOST@HADOOP.COM

    dfs.namenode.kerberos.principal
    El Kerberos principal que se utiliza para el namenode de su Hadoop Distributed File System (HDFS).

    Por ejemplo, hdfs/_HOST@HADOOP.COM

    dfs.datanode.kerberos.principal
    El Kerberos principal que se utiliza para el datanode de su Hadoop Distributed File System (HDFS).

    Por ejemplo, hdfs/_HOST@HADOOP.COM

    • Etapa Read from File
    • Etapa Write to File
    • Nueva etapa Read from Hive ORC File
    • Etapa Write to Hive ORC File
    Parámetros de Hadoop 1.x
    fs.default.name
    Especifica el nodo y el puerto donde se ejecuta Hadoop.

    Por ejemplo, hdfs://152.144.226.224:9000

    Parámetros de Hadoop 2.x

    fs.defaultFS
    Especifica el nodo y el puerto donde se ejecuta Hadoop.

    Por ejemplo, hdfs://152.144.226.224:9000.

    Nota: Se recomienda usar el nombre del parámetro fs.defaultFS a partir de Spectrum™ Technology Platform 11 SP1.
  15. Para probar la conexión, haga clic en Probar.
  16. Haga clic en Guardar.

Después de definir una conexión a un clúster HDFS, queda disponible en las etapas de origen y recepción en Enterprise Designer, como Read from File y Write to File. Puede seleccionar el clúster HDFS cuando hace clic en Equipo remoto para definir un archivo en una etapa de origen o recepción.