Connexion à Hadoop

Afin que Spectrum™ Technology Platform puisse accéder aux données de Hadoop, vous devez définir une connexion à Hadoop à l'aide de Management Console. Une fois que cela est fait, vous pouvez créer des flux dans Enterprise Designer qui peuvent lire les données de Hadoop et y écrire des données.

Avertissement : Spectrum™ Technology Platform ne prend pas en charge Hadoop 2.x pour Kerberos sur les plates-formes Windows.
  1. Ouvrez Management Console.
  2. Accédez à Ressources > Sources de données.
  3. Cliquez sur le bouton Ajouter .
  4. Dans le champ Nom, entrez un nom pour la nouvelle connexion. Ce nom est entièrement de votre choix.
    Remarque : Une fois que vous enregistrez une connexion, vous ne pouvez plus modifier le nom.
  5. Dans le champ Type, sélectionnez HDFS.
  6. Dans le champ Hôte, saisissez le nom d'hôte ou l'adresse IP de NameNode dans le cluster HDFS.
  7. Dans le champ Port, entrez le numéro du port réseau.
  8. Dans Utilisateur, sélectionnez l'une des options suivantes :
    Utilisateur serveur
    Sélectionnez cette option si l'authentification est activée dans votre cluster HDFS. Cette option utilisera les noms d'utilisateur sous lequel le serveur Spectrum™ Technology Platform est exécuté pour s'authentifier dans HDFS.
    Nom utilisateur
    Sélectionnez cette option si l'authentification est désactivée dans votre cluster HDFS.
  9. Cochez la case Kerberos si vous souhaitez activer la fonctionnalité d'authentification Kerberos pour cette connexion au serveur de fichiers HDFS.
  10. Si vous avez choisi d'activer l'authentification Kerberos, saisissez le chemin d'accès au fichier keytab dans le champ Chemin d'accès au fichier Keytab.
    Remarque : Assurez-vous que le fichier de clé TAB est présent sur le serveur Spectrum™ Technology Platform.
  11. Dans le champ Protocole, sélectionnez l'une des options suivantes :
    WEBHDFS
    Sélectionnez cette option si le cluster HDFS exécute HDFS 1.0 ou version ultérieure. Ce protocole prend en charge les opérations de lecture et d'écriture.
    HFTP
    Sélectionnez cette option si le cluster HDFS exécute une version antérieure à HDFS 1.0 ou si votre organisation n'autorise pas le protocole WEBHDFS. Ce protocole ne prend en charge que l'opération de lecture.
    HAR
    Sélectionnez cette option pour accéder aux fichiers d'archive Hadoop. Si vous choisissez cette option, indiquez le chemin au fichier d'archive dans le champ Path. Ce protocole ne prend en charge que l'opération de lecture.
  12. Développez Options avancées.
  13. Si vous avez sélectionné le protocole WEBHDFS, vous pouvez spécifier les options avancées suivantes, le cas échéant :
    Facteur de réplication
    Indique le nombre de nœuds de données dans lesquels répliquer chaque bloc. Par exemple, le paramètre par défaut de 3 réplique chaque bloc en trois nœuds différents dans le cluster. Le facteur de réplication maximal est de 1 024.
    Taille du bloc
    Indique la taille de chaque bloc. HDFS décompose un fichier en blocs de la taille que vous indiquez ici. Par exemple, si vous indiquez la valeur par défaut 64 Mo, chaque fichier est décomposé en blocs de 64 Mo. Chaque bloc est ensuite répliqué en un nombre de nœuds dans le cluster spécifié dans le champ Replication factor.
    Permissions de fichier
    Indique le niveau d'accès aux fichiers écrits dans le cluster HDFS par Spectrum™ Technology Platform. Vous pouvez spécifier des droits de lecture et d'écriture pour chacune des options suivantes :
    Remarque : L'autorisation Exécuter n'est pas applicable à Spectrum™ Technology Platform.
    Utilisateur
    Il s'agit de l'utilisateur indiqué ci-dessus, Server user ou l'utilisateur spécifié dans le champ User Name.
    Groupe
    Cela fait référence à un groupe dont l'utilisateur est membre. Par exemple, si l'utilisateur est john123, les permissions Groupe s'appliquent à tout groupe dont john123 est membre.
    Autre
    Cela fait référence à tout autre utilisateur, ainsi qu'aux groupes dont l'utilisateur spécifié n'est pas membre.
  14. Dans la grille sous le tableau Permissions de fichier, spécifiez les propriétés du serveur pour Hadoop, afin de garantir que les fonctions de tri et de filtrage fonctionnent comme vous le souhaitez lorsque la connexion est utilisée dans un stage ou une activité. Pour ajouter des propriétés, procédez comme suit :
    • Cliquez sur et ajoutez les propriétés et leurs valeurs respectives dans les champs Propriété et Valeur.
    • Cliquez sur et chargez votre fichier de configuration XML. Le fichier XML doit être semblable à hdfs-site.xml, yarn-site.xml ou core-site.xml.
      Remarque : Le fichier de configuration doit être placé sur le serveur.

    Ce tableau décrit les propriétés et leurs valeurs, selon le stage ou l'activité qui va utiliser la connexion Hadoop. Les propriétés dépendent également de la version Hadoop utilisée (Hadoop 1.x ou Hadoop 2.x).

    Stage ou activité utilisant la connexion HDFS Propriétés du serveur requis
    • Stage Read from Sequence File
    • Activité Run Hadoop Pig
    Paramètres d'Hadoop 1.x
    fs.default.name
    Indique le nœud et le port d'exécution de Hadoop.

    Par exemple, hdfs://152.144.226.224:9000

    mapred.job.tracker
    Indique le nom d'hôte ou l'adresse IP et le port d'exécution du suiveur de job MapReduce. Si le nom d'hôte est saisi comme local, les jobs sont exécutés sous la forme d'une seule carte et réduisent la tâche.

    Par exemple, 152.144.226.224:9001

    dfs.namenode.name.dir
    Indique l'endroit où un nœud de nom DFS doit stocker la table nommée dans le système de fichiers local. S'il s'agit d'une liste de répertoires délimitée par des virgules, la table nommée est copiée dans tous les répertoires, à des fins de redondance.

    Par exemple, file:/home/hduser/Data/namenode

    dfs.datanode.data.dir
    Indique l'endroit où un nœud de nom DFS doit stocker ses blocs dans le système de fichiers local. S'il s'agit d'une liste de répertoires délimitée par des virgules, les données sont stockées dans tous les répertoires nommés qui se trouvent généralement sur différents appareils. Les répertoires inexistants sont ignorés.

    Par exemple, file:/home/hduser/Data/datanode

    hadoop.tmp.dir
    Indique l'emplacement de base des autres répertoires temporaires.

    Par exemple, /home/hduser/Data/tmp

    Paramètres d'Hadoop 2.x

    fs.defaultFS
    Indique le nœud et le port d'exécution de Hadoop.

    Par exemple, hdfs://152.144.226.224:9000

    Remarque : Pour les versions 11.0 et antérieures de Spectrum, le nom de paramètre fs.defaultfs doit être utilisé. Notez la différence de casse.

    Pour les versions 11 SP1 et suivantes, les deux noms fs.defaultfs et fs.defaultFS sont valides. Il est recommandé d'utiliser le nom de paramètre fs.defaultFS pour Spectrum™ Technology Platform 11 SP1 et les versions suivantes.

    yarn.resourcemanager.resource-tracker.address
    Indique le nom d'hôte ou l'adresse IP de Resource Manager.

    Par exemple, 152.144.226.224:8025

    yarn.resourcemanager.scheduler.address
    Indique l'adresse de Scheduler Interface.

    Par exemple, 152.144.226.224:8030

    yarn.resourcemanager.address
    Indique l'adresse de l'interface Applications Manager contenue dans Resource Manager.

    Par exemple, 152.144.226.224:8041

    mapreduce.jobhistory.address
    Indique le nom d'hôte ou l'adresse IP et le port d'exécution de MapReduce Job History Server.

    Par exemple, 152.144.226.224:10020

    mapreduce.application.classpath
    Indique le CLASSPATH des applications MapReduce. Ce CLASSPATH indique l'emplacement des classes associées aux applications MapReduce.
    Remarque : Les entrées doivent être séparées par des virgules.
    Par exemple

    $HADOOP_CONF_DIR, $HADOOP_COMMON_HOME/share/hadoop/common/*, $HADOOP_COMMON_HOME/share/hadoop/common/lib/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*, $HADOOP_YARN_HOME/share/hadoop/yarn/*, $HADOOP_YARN_HOME/share/hadoop/yarn/lib/*

    mapreduce.app-submission.cross-platform
    Gère plusieurs problèmes de plate-forme qui se produisent si votre serveur Spectrum est exécuté sur un ordinateur Windows et que vous installez Cloudera dessus. Si votre serveur Spectrum et Cloudera sont exécutés sur des systèmes d'exploitation différents, définissez la valeur de ce paramètre sur true. Sinon, définissez-le sur false.
    Remarque : Cloudera ne prend pas en charge les clients Windows. La configuration de ce paramètre contourne le problème et ne constitue pas une solution à tous les problèmes de plate-forme qui se produisent.
    Si vous avez cochez la case Kerberos ci-dessus, ajoutez les ci-dessous les propriétés de configuration Kerberos supplémentaires ci-dessous :
    hadoop.security.authentication
    Type de sécurité d'authentification utilisé. Saisissez la valeur kerberos.
    yarn.resourcemanager.principal
    Principal Kerberos utilisé pour le Gestionnaire de ressources pour votre négociateur de ressources Hadoop YARN.

    Par exemple, yarn/_HOST@HADOOP.COM

    dfs.namenode.kerberos.principal
    Principal Kerberos utilisé pour le namenode de votre Hadoop Distributed File System (HDFS).

    Par exemple, hdfs/_HOST@HADOOP.COM

    dfs.datanode.kerberos.principal
    Principal Kerberos utilisé pour le datanode de votre Hadoop Distributed File System (HDFS).

    Par exemple, hdfs/_HOST@HADOOP.COM

    • Stage Read from File
    • Stage Write to File
    • Stage Read from Hive ORC File
    • Stage Read from Hive ORC File
    Paramètres d'Hadoop 1.x
    fs.default.name
    Indique le nœud et le port d'exécution de Hadoop.

    Par exemple, hdfs://152.144.226.224:9000

    Paramètres d'Hadoop 2.x

    fs.defaultFS
    Indique le nœud et le port d'exécution de Hadoop.

    Par exemple, hdfs://152.144.226.224:9000

    Remarque : Pour les versions 11.0 et antérieures de Spectrum, le nom de paramètre fs.defaultfs doit être utilisé. Notez la différence de casse.

    Pour les versions 11 SP1 et suivantes, les deux noms fs.defaultfs et fs.defaultFS sont valides. Il est recommandé d'utiliser le nom de paramètre fs.defaultFS pour Spectrum™ Technology Platform 11 SP1 et les versions suivantes.

  15. Pour tester la connexion, cliquez sur Tester.
  16. Cliquez sur Enregistrer.

Après avoir défini une connexion à un cluster HDFS, celle-ci devient disponible dans les stages source et de collecteur de données dans Enterprise Designer, tels que Read from File et Write to File. Vous pouvez sélectionner le cluster HDFS lorsque vous cliquez sur Ordinateur distant lors de la définition d'un fichier dans un stage source ou de collecteur de données.