Connexion à Hadoop

Connectez-vous au système Hadoop pour utiliser les stages tels que Read from Hadoop Sequence File, Write to Hadoop Sequence File, Read from file, Write to File, Read From XML, Write to XML, Read from Hive File, Write to Hive File et Read from HL7 File dans Enterprise Designer.

Avertissement : Spectrum™ Technology Platform ne prend pas en charge Hadoop 2.x pour Kerberos sur les plates-formes Windows.

Suivez ces étapes pour vous connecter au système Hadoop :

Accédez à la page Sources de données en utilisant l'un de ces modules :
Management Console :
Ouvrez Management Console à l'aide de l'URL : URL: http://serveur:port/managementconsole, où serveur est le nom du serveur ou l'adresse IP de votre serveur Spectrum™ Technology Platform et port est le port HTTP utilisé par Spectrum™ Technology Platform.
Remarque : Par défaut, le port HTTP est 8080.

Accédez à Ressources > Sources de données.

Metadata Insights :
Ouvrez Metadata Insights à l'aide de l'URL : URL: http://serveur:port/metadata-insights, où serveur est le nom du serveur ou l'adresse IP de votre serveur Spectrum™ Technology Platform et port est le port HTTP utilisé par Spectrum™ Technology Platform.
Remarque : Par défaut, le port HTTP est 8080.

Accédez à Sources de données.
Cliquez sur le bouton Ajouter .
Dans le champ Nom, entrez un nom pour la nouvelle connexion. Ce nom est entièrement de votre choix.

Remarque : Une fois que vous enregistrez une connexion, vous ne pouvez plus modifier le nom.
Dans le champ Type, sélectionnez HDFS.
Dans le champ Hôte, saisissez le nom d'hôte ou l'adresse IP de NameNode dans le cluster HDFS.
Dans le champ Port, entrez le numéro du port réseau.
Dans Utilisateur, sélectionnez l'une de ces options :
Utilisateur serveur
Sélectionnez cette option si l'authentification est activée dans votre cluster HDFS. Cette option utilisera les noms d'utilisateur sous lequel le serveur Spectrum™ Technology Platform est exécuté pour s'authentifier dans HDFS.

Nom utilisateur
Sélectionnez cette option si l'authentification est désactivée dans votre cluster HDFS.
Cochez la case Kerberos si vous souhaitez activer la fonctionnalité d'authentification Kerberos pour cette connexion au serveur de fichiers HDFS.
Si vous avez choisi d'activer l'authentification Kerberos, saisissez le chemin d'accès au fichier keytab dans le champ Chemin d'accès au fichier Keytab.

Remarque : Assurez-vous que le fichier de clé TAB est présent sur le serveur Spectrum™ Technology Platform.
Dans le champ Protocole, sélectionnez l'une des options suivantes :
WEBHDFS
Sélectionnez cette option si le cluster HDFS exécute HDFS 1.0 ou version ultérieure. Ce protocole prend en charge les opérations de lecture et d'écriture.

HFTP
Sélectionnez cette option si le cluster HDFS exécute une version antérieure à HDFS 1.0 ou si votre organisation n'autorise pas le protocole WEBHDFS. Ce protocole ne prend en charge que l'opération de lecture.

HAR
Sélectionnez cette option pour accéder aux fichiers d'archive Hadoop. Si vous choisissez cette option, indiquez le chemin au fichier d'archive dans le champ Path. Ce protocole ne prend en charge que l'opération de lecture.
Développez Options avancées.
Si vous avez sélectionné le protocole WEBHDFS, vous pouvez spécifier les options avancées suivantes, le cas échéant :
Facteur de réplication
Indique le nombre de nœuds de données dans lesquels répliquer chaque bloc. Par exemple, le paramètre par défaut de 3 réplique chaque bloc en trois nœuds différents dans le cluster. Le facteur de réplication maximal est de 1 024.

Taille du bloc
Indique la taille de chaque bloc. HDFS décompose un fichier en blocs de la taille que vous indiquez ici. Par exemple, si vous indiquez la valeur par défaut 64 Mo, chaque fichier est décomposé en blocs de 64 Mo. Chaque bloc est ensuite répliqué en un nombre de nœuds dans le cluster spécifié dans le champ Replication factor.

Permissions de fichier
Indique le niveau d'accès aux fichiers écrits dans le cluster HDFS par Spectrum™ Technology Platform. Vous pouvez spécifier des droits de lecture et d'écriture pour chacune des options suivantes :
Remarque : L'autorisation Exécuter n'est pas applicable à Spectrum™ Technology Platform.
Utilisateur
Il s'agit de l'utilisateur indiqué ci-dessus, Server user ou l'utilisateur spécifié dans le champ User Name.

Groupe
Cela fait référence à un groupe dont l'utilisateur est membre. Par exemple, si l'utilisateur est john123, les permissions Groupe s'appliquent à tout groupe dont john123 est membre.

Autre
Cela fait référence à tout autre utilisateur, ainsi qu'aux groupes dont l'utilisateur spécifié n'est pas membre.
Utilisez les descriptions Permissions de fichier ci-dessous pour définir les propriétés du serveur pour Hadoop pour garantir que les fonctions de tri et de filtrage fonctionnent comme vous le souhaitez lorsque la connexion est utilisée dans un stage ou une activité. Pour ajouter des propriétés, effectuez l'une des étapes suivantes :
- Cliquez sur et ajoutez les propriétés et leurs valeurs respectives dans les champs Propriété et Valeur.
- Cliquez sur et chargez votre fichier de configuration XML. Le fichier XML doit être semblable à hdfs-site.xml, yarn-site.xml ou core-site.xml.
  Remarque : Placez le fichier de configuration sur le serveur.
Permissions de fichier et paramètres - Hadoop 1.x
Cette section s'applique à ce stage et à cette activité :
- Stage Read from Sequence File
- Activité Run Hadoop Pig
fs.default.name

Indique le nœud et le port d'exécution de Hadoop. Par exemple, hdfs://152.144.226.224:9000

mapred.job.tracker

Indique le nom d'hôte ou l'adresse IP et le port d'exécution du suiveur de job MapReduce. Si le nom d'hôte est saisi comme local, les jobs sont exécutés sous la forme d'une seule carte et réduisent la tâche. Par exemple, 152.144.226.224:9001

dfs.namenode.name.dir

Indique l'endroit où un nœud de nom DFS doit stocker la table nommée dans le système de fichiers local. S'il s'agit d'une liste de répertoires délimitée par des virgules, la table nommée est copiée dans tous les répertoires, à des fins de redondance. Par exemple, file:/home/hduser/Data/namenode

hadoop.tmp.dir

Indique l'emplacement de base des autres répertoires temporaires. Par exemple, /home/hduser/Data/tmp
Permissions de fichier et paramètres - Hadoop 2.x
Cette section s'applique à ce stage et à cette activité :
- Stage Read from Sequence File
- Activité Run Hadoop Pig
fs.defaultFS

Indique le nœud et le port d'exécution de Hadoop. Par exemple, hdfs://152.144.226.224:9000

REMARQUE : Pour les versions 11.0 et antérieures de Spectrum, le nom de paramètre fs.defaultfs doit être utilisé. Notez la différence de casse. Pour les versions 11 SP1 et ultérieures, les deux noms fs.defaultfs et fs.defaultFS sont valides. Nous vous recommandons d'utiliser le nom de paramètre fs.defaultFS pour les versions 11.0 SP1 et ultérieures.

yarn.resourcemanager.resource-tracker.address

Indique le nom d'hôte ou l'adresse IP de Resource Manager. Par exemple, 152.144.226.224:8025

yarn.resourcemanager.scheduler.address

Indique l'adresse de Scheduler Interface. Par exemple, 152.144.226.224:8030

yarn.resourcemanager.address

Indique l'adresse de l'interface Applications Manager contenue dans Resource Manager. Par exemple, 152.144.226.224:8041

mapreduce.jobhistory.address

Indique le nom d'hôte ou l'adresse IP et le port d'exécution de MapReduce Job History Server. Par exemple, 152.144.226.224:10020

mapreduce.application.classpath

Indique le CLASSPATH des applications MapReduce. Ce CLASSPATH indique l'emplacement des classes associées aux applications MapReduce. Les entrées doivent être séparées par des virgules.

Par exemple :

$HADOOP_CONF_DIR, $HADOOP_COMMON_HOME/share/hadoop/common/*, $HADOOP_COMMON_HOME/share/hadoop/common/lib/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*, $HADOOP_YARN_HOME/share/hadoop/yarn/*, $HADOOP_YARN_HOME/share/hadoop/yarn/lib/*

mapreduce.app-submission.cross-platform

Gère plusieurs problèmes de plate-forme qui se produisent si votre serveur Spectrum est exécuté sur un ordinateur Windows et que vous installez Cloudera dessus. Si votre serveur Spectrum et Cloudera sont exécutés sur des systèmes d'exploitation différents, définissez la valeur de ce paramètre sur true. Sinon, définissez-la sur false.
Remarque : Cloudera ne prend pas en charge les clients Windows. La configuration de ce paramètre contourne le problème et ne constitue pas une solution à tous les problèmes de plate-forme qui se produisent.
Permissions de fichier et paramètres - Kerberos
Cette section s'applique à ce stage et à cette activité :
- Stage Read from Sequence File
- Activité Run Hadoop Pig
Si vous avez coché la case Kerberos, ajoutez ces propriétés de configuration Kerberos :

hadoop.security.authentication

Type de sécurité d'authentification utilisé. Saisissez la valeur kerberos.

yarn.resourcemanager.principal

Principal Kerberos utilisé pour le Gestionnaire de ressources pour votre négociateur de ressources Hadoop YARN. Par exemple : yarn/_HOST@HADOOP.COM

dfs.namenode.kerberos.principal

Principal Kerberos utilisé pour le namenode de votre Hadoop Distributed File System (HDFS). Par exemple, hdfs/_HOST@HADOOP.COM

dfs.datanode.kerberos.principal

Principal Kerberos utilisé pour le datanode de votre Hadoop Distributed File System (HDFS). Par exemple, hdfs/_HOST@HADOOP.COM
Permissions de fichier et paramètres - Hadoop 1.x
Cette section s'applique à ces stages :
- Stage Read from File
- Stage Write to File
- Stage Read from Hive ORC File
- Stage Read from Hive ORC File
fs.default.name

Indique le nœud et le port d'exécution de Hadoop. Par exemple, hdfs://152.144.226.224:9000
Permissions de fichier et paramètres - Hadoop 2.x
Cette section s'applique à ces stages :
- Stage Read or write from File
- Stage Read or write from Hive ORC File
fs.defaultFS

Indique le nœud et le port d'exécution de Hadoop. Par exemple, hdfs://152.144.226.224:9000

REMARQUE : Pour les versions 11.0 et antérieures de Spectrum, le nom de paramètre fs.defaultfs doit être utilisé. Notez la différence de casse. Pour les versions 11 SP1 et ultérieures, les deux noms fs.defaultfs et fs.defaultFS sont valides. Nous vous recommandons d'utiliser le nom de paramètre fs.defaultFS pour les versions 11.0 SP1 et ultérieures.
Pour tester la connexion, cliquez sur Tester.
Cliquez sur Enregistrer.

Après avoir défini une connexion à un cluster HDFS, celle-ci devient disponible dans les stages source et de collecteur de données dans Enterprise Designer, tels que Read from File et Write to File. Vous pouvez sélectionner le cluster HDFS lorsque vous cliquez sur Ordinateur distant lors de la définition d'un fichier dans un stage source ou de collecteur de données.