Connexion à Hadoop

Afin que Spectrum™ Technology Platform puisse accéder aux données de Hadoop, vous devez définir une connexion à Hadoop à l'aide de Management Console. Une fois que cela est fait, vous pouvez créer des flux dans Enterprise Designer qui peuvent lire les données de Hadoop et y écrire des données.

Avertissement : Spectrum™ Technology Platform ne prend pas en charge Hadoop 2.x pour Kerberos sur les plates-formes Windows.

Ouvrez Management Console.
Accédez à Ressources > Sources de données.
Cliquez sur le bouton Ajouter .
Dans le champ Nom, entrez un nom pour la nouvelle connexion. Ce nom est entièrement de votre choix.

Remarque : Une fois que vous enregistrez une connexion, vous ne pouvez plus modifier le nom.
Dans le champ Type, sélectionnez HDFS.
Dans le champ Hôte, saisissez le nom d'hôte ou l'adresse IP de NameNode dans le cluster HDFS.
Dans le champ Port, entrez le numéro du port réseau.
Dans Utilisateur, sélectionnez l'une des options suivantes :
Utilisateur serveur

Sélectionnez cette option si l'authentification est activée dans votre cluster HDFS. Cette option utilisera les noms d'utilisateur sous lequel le serveur Spectrum™ Technology Platform est exécuté pour s'authentifier dans HDFS.

Nom utilisateur

Sélectionnez cette option si l'authentification est désactivée dans votre cluster HDFS.
Cochez la case Kerberos si vous souhaitez activer la fonctionnalité d'authentification Kerberos pour cette connexion au serveur de fichiers HDFS.
Si vous avez choisi d'activer l'authentification Kerberos, saisissez le chemin d'accès au fichier keytab dans le champ Chemin d'accès au fichier Keytab.

Remarque : Assurez-vous que le fichier de clé TAB est présent sur le serveur Spectrum™ Technology Platform.
Dans le champ Protocole, sélectionnez l'une des options suivantes :
WEBHDFS

Sélectionnez cette option si le cluster HDFS exécute HDFS 1.0 ou version ultérieure. Ce protocole prend en charge les opérations de lecture et d'écriture.

HFTP

Sélectionnez cette option si le cluster HDFS exécute une version antérieure à HDFS 1.0 ou si votre organisation n'autorise pas le protocole WEBHDFS. Ce protocole ne prend en charge que l'opération de lecture.

HAR

Sélectionnez cette option pour accéder aux fichiers d'archive Hadoop. Si vous choisissez cette option, indiquez le chemin au fichier d'archive dans le champ Path. Ce protocole ne prend en charge que l'opération de lecture.
Développez Options avancées.
Si vous avez sélectionné le protocole WEBHDFS, vous pouvez spécifier les options avancées suivantes, le cas échéant :
Facteur de réplication

Indique le nombre de nœuds de données dans lesquels répliquer chaque bloc. Par exemple, le paramètre par défaut de 3 réplique chaque bloc en trois nœuds différents dans le cluster. Le facteur de réplication maximal est de 1 024.

Taille du bloc

Indique la taille de chaque bloc. HDFS décompose un fichier en blocs de la taille que vous indiquez ici. Par exemple, si vous indiquez la valeur par défaut 64 Mo, chaque fichier est décomposé en blocs de 64 Mo. Chaque bloc est ensuite répliqué en un nombre de nœuds dans le cluster spécifié dans le champ Replication factor.

Permissions de fichier

Indique le niveau d'accès aux fichiers écrits dans le cluster HDFS par Spectrum™ Technology Platform. Vous pouvez spécifier des droits de lecture et d'écriture pour chacune des options suivantes :
Remarque : L'autorisation Exécuter n'est pas applicable à Spectrum™ Technology Platform.

Utilisateur

Il s'agit de l'utilisateur indiqué ci-dessus, Server user ou l'utilisateur spécifié dans le champ User Name.

Groupe

Cela fait référence à un groupe dont l'utilisateur est membre. Par exemple, si l'utilisateur est john123, les permissions Groupe s'appliquent à tout groupe dont john123 est membre.

Autre

Cela fait référence à tout autre utilisateur, ainsi qu'aux groupes dont l'utilisateur spécifié n'est pas membre.

Dans la grille sous le tableau Permissions de fichier, spécifiez les propriétés du serveur pour Hadoop, afin de garantir que les fonctions de tri et de filtrage fonctionnent comme vous le souhaitez lorsque la connexion est utilisée dans un stage ou une activité. Pour ajouter des propriétés, procédez comme suit :

Cliquez sur et ajoutez les propriétés et leurs valeurs respectives dans les champs Propriété et Valeur.
Cliquez sur et chargez votre fichier de configuration XML. Le fichier XML doit être semblable à hdfs-site.xml, yarn-site.xml ou core-site.xml.
Remarque : Le fichier de configuration doit être placé sur le serveur.

Ce tableau décrit les propriétés et leurs valeurs, selon le stage ou l'activité qui va utiliser la connexion Hadoop. Les propriétés dépendent également de la version Hadoop utilisée (Hadoop 1.x ou Hadoop 2.x).

Stage ou activité utilisant la connexion HDFS	Propriétés du serveur requis
Stage Read from Sequence File Activité Run Hadoop Pig	Paramètres d'Hadoop 1.x fs.default.name Indique le nœud et le port d'exécution de Hadoop. Par exemple, `hdfs://152.144.226.224:9000` mapred.job.tracker Indique le nom d'hôte ou l'adresse IP et le port d'exécution du suiveur de job MapReduce. Si le nom d'hôte est saisi comme local, les jobs sont exécutés sous la forme d'une seule carte et réduisent la tâche. Par exemple, `152.144.226.224:9001` dfs.namenode.name.dir Indique l'endroit où un nœud de nom DFS doit stocker la table nommée dans le système de fichiers local. S'il s'agit d'une liste de répertoires délimitée par des virgules, la table nommée est copiée dans tous les répertoires, à des fins de redondance. Par exemple, `file:/home/hduser/Data/namenode` dfs.datanode.data.dir Indique l'endroit où un nœud de nom DFS doit stocker ses blocs dans le système de fichiers local. S'il s'agit d'une liste de répertoires délimitée par des virgules, les données sont stockées dans tous les répertoires nommés qui se trouvent généralement sur différents appareils. Les répertoires inexistants sont ignorés. Par exemple, `file:/home/hduser/Data/datanode` hadoop.tmp.dir Indique l'emplacement de base des autres répertoires temporaires. Par exemple, `/home/hduser/Data/tmp` Paramètres d'Hadoop 2.x fs.defaultFS Indique le nœud et le port d'exécution de Hadoop. Par exemple, `hdfs://152.144.226.224:9000` Remarque : Pour les versions 11.0 et antérieures de Spectrum, le nom de paramètre fs.defaultfs doit être utilisé. Notez la différence de casse. Pour les versions 11 SP1 et suivantes, les deux noms fs.defaultfs et fs.defaultFS sont valides. Il est recommandé d'utiliser le nom de paramètre fs.defaultFS pour Spectrum™ Technology Platform 11 SP1 et les versions suivantes. yarn.resourcemanager.resource-tracker.address Indique le nom d'hôte ou l'adresse IP de Resource Manager. Par exemple, `152.144.226.224:8025` yarn.resourcemanager.scheduler.address Indique l'adresse de Scheduler Interface. Par exemple, `152.144.226.224:8030` yarn.resourcemanager.address Indique l'adresse de l'interface Applications Manager contenue dans Resource Manager. Par exemple, `152.144.226.224:8041` mapreduce.jobhistory.address Indique le nom d'hôte ou l'adresse IP et le port d'exécution de MapReduce Job History Server. Par exemple, `152.144.226.224:10020` mapreduce.application.classpath Indique le CLASSPATH des applications MapReduce. Ce CLASSPATH indique l'emplacement des classes associées aux applications MapReduce. Remarque : Les entrées doivent être séparées par des virgules. Par exemple `$HADOOP_CONF_DIR, $HADOOP_COMMON_HOME/share/hadoop/common/, $HADOOP_COMMON_HOME/share/hadoop/common/lib/, $HADOOP_HDFS_HOME/share/hadoop/hdfs/, $HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/, $HADOOP_YARN_HOME/share/hadoop/yarn/, $HADOOP_YARN_HOME/share/hadoop/yarn/lib/` mapreduce.app-submission.cross-platform Gère plusieurs problèmes de plate-forme qui se produisent si votre serveur Spectrum est exécuté sur un ordinateur Windows et que vous installez Cloudera dessus. Si votre serveur Spectrum et Cloudera sont exécutés sur des systèmes d'exploitation différents, définissez la valeur de ce paramètre sur `true`. Sinon, définissez-le sur `false`. Remarque : Cloudera ne prend pas en charge les clients Windows. La configuration de ce paramètre contourne le problème et ne constitue pas une solution à tous les problèmes de plate-forme qui se produisent. Si vous avez cochez la case Kerberos ci-dessus, ajoutez les ci-dessous les propriétés de configuration Kerberos supplémentaires ci-dessous : hadoop.security.authentication Type de sécurité d'authentification utilisé. Saisissez la valeur `kerberos`. yarn.resourcemanager.principal Principal Kerberos utilisé pour le Gestionnaire de ressources pour votre négociateur de ressources Hadoop YARN. Par exemple, `yarn/_HOST@HADOOP.COM` dfs.namenode.kerberos.principal Principal Kerberos utilisé pour le namenode de votre Hadoop Distributed File System (HDFS). Par exemple, `hdfs/_HOST@HADOOP.COM` dfs.datanode.kerberos.principal Principal Kerberos utilisé pour le datanode de votre Hadoop Distributed File System (HDFS). Par exemple, `hdfs/_HOST@HADOOP.COM`
Stage Read from File Stage Write to File Stage Read from Hive ORC File Stage Read from Hive ORC File	Paramètres d'Hadoop 1.x fs.default.name Indique le nœud et le port d'exécution de Hadoop. Par exemple, `hdfs://152.144.226.224:9000` Paramètres d'Hadoop 2.x fs.defaultFS Indique le nœud et le port d'exécution de Hadoop. Par exemple, `hdfs://152.144.226.224:9000` Remarque : Pour les versions 11.0 et antérieures de Spectrum, le nom de paramètre fs.defaultfs doit être utilisé. Notez la différence de casse. Pour les versions 11 SP1 et suivantes, les deux noms fs.defaultfs et fs.defaultFS sont valides. Il est recommandé d'utiliser le nom de paramètre fs.defaultFS pour Spectrum™ Technology Platform 11 SP1 et les versions suivantes.

Stage ou activité utilisant la connexion HDFS

Propriétés du serveur requis

Stage Read from Sequence File
Activité Run Hadoop Pig

Paramètres d'Hadoop 1.x

fs.default.name: Indique le nœud et le port d'exécution de Hadoop.
Par exemple, hdfs://152.144.226.224:9000
mapred.job.tracker: Indique le nom d'hôte ou l'adresse IP et le port d'exécution du suiveur de job MapReduce. Si le nom d'hôte est saisi comme local, les jobs sont exécutés sous la forme d'une seule carte et réduisent la tâche.
Par exemple, 152.144.226.224:9001
dfs.namenode.name.dir: Indique l'endroit où un nœud de nom DFS doit stocker la table nommée dans le système de fichiers local. S'il s'agit d'une liste de répertoires délimitée par des virgules, la table nommée est copiée dans tous les répertoires, à des fins de redondance.
Par exemple, file:/home/hduser/Data/namenode
dfs.datanode.data.dir: Indique l'endroit où un nœud de nom DFS doit stocker ses blocs dans le système de fichiers local. S'il s'agit d'une liste de répertoires délimitée par des virgules, les données sont stockées dans tous les répertoires nommés qui se trouvent généralement sur différents appareils. Les répertoires inexistants sont ignorés.
Par exemple, file:/home/hduser/Data/datanode
hadoop.tmp.dir: Indique l'emplacement de base des autres répertoires temporaires.
Par exemple, /home/hduser/Data/tmp

Paramètres d'Hadoop 2.x

fs.defaultFS: Indique le nœud et le port d'exécution de Hadoop.
Par exemple, hdfs://152.144.226.224:9000

Remarque : Pour les versions 11.0 et antérieures de Spectrum, le nom de paramètre fs.defaultfs doit être utilisé. Notez la différence de casse.
Pour les versions 11 SP1 et suivantes, les deux noms fs.defaultfs et fs.defaultFS sont valides. Il est recommandé d'utiliser le nom de paramètre fs.defaultFS pour Spectrum™ Technology Platform 11 SP1 et les versions suivantes.
yarn.resourcemanager.resource-tracker.address: Indique le nom d'hôte ou l'adresse IP de Resource Manager.
Par exemple, 152.144.226.224:8025
yarn.resourcemanager.scheduler.address: Indique l'adresse de Scheduler Interface.
Par exemple, 152.144.226.224:8030
yarn.resourcemanager.address: Indique l'adresse de l'interface Applications Manager contenue dans Resource Manager.
Par exemple, 152.144.226.224:8041
mapreduce.jobhistory.address: Indique le nom d'hôte ou l'adresse IP et le port d'exécution de MapReduce Job History Server.
Par exemple, 152.144.226.224:10020
mapreduce.application.classpath: Indique le CLASSPATH des applications MapReduce. Ce CLASSPATH indique l'emplacement des classes associées aux applications MapReduce.
Remarque : Les entrées doivent être séparées par des virgules.

Par exemple
$HADOOP_CONF_DIR, $HADOOP_COMMON_HOME/share/hadoop/common/*, $HADOOP_COMMON_HOME/share/hadoop/common/lib/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*, $HADOOP_YARN_HOME/share/hadoop/yarn/*, $HADOOP_YARN_HOME/share/hadoop/yarn/lib/*

mapreduce.app-submission.cross-platform: Gère plusieurs problèmes de plate-forme qui se produisent si votre serveur Spectrum est exécuté sur un ordinateur Windows et que vous installez Cloudera dessus. Si votre serveur Spectrum et Cloudera sont exécutés sur des systèmes d'exploitation différents, définissez la valeur de ce paramètre sur true. Sinon, définissez-le sur false.
Remarque : Cloudera ne prend pas en charge les clients Windows. La configuration de ce paramètre contourne le problème et ne constitue pas une solution à tous les problèmes de plate-forme qui se produisent.

Si vous avez cochez la case Kerberos ci-dessus, ajoutez les ci-dessous les propriétés de configuration Kerberos supplémentaires ci-dessous :

hadoop.security.authentication: Type de sécurité d'authentification utilisé. Saisissez la valeur kerberos.
yarn.resourcemanager.principal: Principal Kerberos utilisé pour le Gestionnaire de ressources pour votre négociateur de ressources Hadoop YARN.
Par exemple, yarn/_HOST@HADOOP.COM
dfs.namenode.kerberos.principal: Principal Kerberos utilisé pour le namenode de votre Hadoop Distributed File System (HDFS).
Par exemple, hdfs/_HOST@HADOOP.COM
dfs.datanode.kerberos.principal: Principal Kerberos utilisé pour le datanode de votre Hadoop Distributed File System (HDFS).
Par exemple, hdfs/_HOST@HADOOP.COM

Stage Read from File
Stage Write to File
Stage Read from Hive ORC File
Stage Read from Hive ORC File

Paramètres d'Hadoop 1.x

fs.default.name: Indique le nœud et le port d'exécution de Hadoop.
Par exemple, hdfs://152.144.226.224:9000

Paramètres d'Hadoop 2.x

fs.defaultFS: Indique le nœud et le port d'exécution de Hadoop.
Par exemple, hdfs://152.144.226.224:9000

Remarque : Pour les versions 11.0 et antérieures de Spectrum, le nom de paramètre fs.defaultfs doit être utilisé. Notez la différence de casse.
Pour les versions 11 SP1 et suivantes, les deux noms fs.defaultfs et fs.defaultFS sont valides. Il est recommandé d'utiliser le nom de paramètre fs.defaultFS pour Spectrum™ Technology Platform 11 SP1 et les versions suivantes.

Pour tester la connexion, cliquez sur Tester.
Cliquez sur Enregistrer.

Après avoir défini une connexion à un cluster HDFS, celle-ci devient disponible dans les stages source et de collecteur de données dans Enterprise Designer, tels que Read from File et Write to File. Vous pouvez sélectionner le cluster HDFS lorsque vous cliquez sur Ordinateur distant lors de la définition d'un fichier dans un stage source ou de collecteur de données.