Verbinden mit Hadoop

Sie können Flüsse in Enterprise Designer erstellen, indem Sie diese Phasen des Enterprise Big Data-Moduls verwenden, um Daten aus dieser Datenbank zu lesen und Daten in diese Datenbank zu schreiben.

Read from Hadoop Sequence File
Write to Hadoop Sequence File

Achtung: Hadoop 2.x für Kerberos auf Windows-Plattformen wird von Spectrum™ Technology Platform nicht unterstützt.

Greifen Sie über eines der folgenden Module auf die Seite Datenquellen zu:
Management Console:

Öffnen Sie die Management Console über die URL: http://server:port/managementconsole, wobei server der Servername oder die IP-Adresse Ihres Spectrum™ Technology Platform-Servers und port der von Spectrum™ Technology Platform verwendete HTTP-Port ist.
Anmerkung: Der HTTP-Port ist standardmäßig auf 8080 eingestellt.

Öffnen Sie Ressourcen > Datenquellen.

Metadata Insights:

Öffnen Sie die Management Console über die URL: http://server:port/metadata-insights, wobei server der Servername oder die IP-Adresse Ihres Spectrum™ Technology Platform-Servers und port der von Spectrum™ Technology Platform verwendete HTTP-Port ist.
Anmerkung: Der HTTP-Port ist standardmäßig auf 8080 eingestellt.

Öffnen Sie Datenquellen.
Klicken Sie auf die Schaltfläche Hinzufügen .
Geben Sie im Feld Name einen Namen für die Verbindung ein. Sie können den Namen frei wählen.

Anmerkung: Sobald Sie eine Verbindung gespeichert haben, können Sie den Namen nicht mehr ändern.
Wählen Sie im Feld Typ HDFS aus
Geben Sie im Feld Host den Hostnamen oder die IP-Adresse des Namensknotens im HDFS-Cluster ein.
Geben Sie im Feld Port die Netzwerkportnummer ein.
Wählen Sie in Benutzer eine der folgenden Optionen aus:
Serverbenutzer

Wählen Sie diese Option aus, wenn in Ihrem HDFS-Cluster Authentifizierung aktiviert ist. Diese Option verwendet die Benutzeranmeldedaten, unter denen der Spectrum™ Technology Platform-Server läuft, um sich gegenüber HDFS zu authentifizieren.

Benutzername

Wählen Sie diese Option aus, wenn in Ihrem HDFS-Cluster Authentifizierung deaktiviert ist.
Aktivieren Sie Kerberos, wenn Sie das Feature Kerberos-Authentifizierung für diese HDFS-Dateiserververbindung aktivieren möchten.
Wenn Sie sich für die Aktivierung der Kerberos-Authentifizierung entschieden haben, geben Sie den Pfad zur Schlüsseltabellendatei im Feld Schlüsseltabellen-Dateipfad ein.

Anmerkung: Vergewissern Sie sich, dass sich die Schlüsseltabellendatei auf dem Spectrum™ Technology Platform-Server befindet.
Wählen Sie im Feld Protokoll eine der folgenden Optionen aus:
WEBHDFS

Wählen Sie diese Option aus, wenn auf dem HDFS-Cluster HDFS 1.0 oder höher läuft. Dieses Protokoll unterstützt sowohl Lese- als auch Schreibvorgänge.

HFTP

Wählen Sie diese Option aus, wenn auf dem HDFS-Cluster eine Version läuft, die älter ist als HDFS 1.0, oder wenn Ihre Organisation die Verwendung des WEBHDFS-Protokolls nicht zulässt. Dieses Protokoll unterstützt nur Lesevorgänge.

HAR

Wählen Sie diese Option aus, um auf Hadoop-Archivdateien zuzugreifen. Wenn Sie diese Option auswählen, geben Sie im Feld Pfad den Pfad zur Archivdatei an. Dieses Protokoll unterstützt nur Lesevorgänge.
Erweitern Sie Erweiterte Optionen.
Wenn Sie das WEBHDFS-Protokoll ausgewählt haben, können Sie folgende erweiterte Optionen nach Bedarf festlegen:
Replikationsfaktor

Geben Sie hier an, zu wie vielen Datenknoten jeder Block repliziert werden soll. Die Standardeinstellung 3 repliziert beispielsweise jeden Block zu drei verschiedenen Knoten im Cluster. Der maximale Replikationsfaktor ist 1024.

Blockgröße

Geben Sie hier die Größe eines Blocks an. HDFS teilt eine Datei in Blöcke auf, die die von Ihnen hier angegebene Größe aufweisen. Wenn Sie beispielsweise den Standardwert 64 MB angeben, wird jede Datei in 64-MB-Blöcke aufgeteilt. Jeder Block wird dann zu der Anzahl von Knoten im Cluster repliziert, die im Feld Replikationsfaktor angegeben ist.

Dateiberechtigungen

Legen Sie hier die Zugriffsstufe auf Dateien fest, die von Spectrum™ Technology Platform in das HDFS-Cluster geschrieben werden. Sie können Lese- und Schreibberechtigungen für jede der folgenden Optionen festlegen:
Anmerkung: Die Berechtigung Ausführen ist bei Spectrum™ Technology Platform nicht anwendbar.

Benutzer

Dies ist der oben angegebene Benutzer, entweder Serverbenutzer oder der im Feld Benutzername angegebene Benutzer.

Group

Dies bezieht sich auf jede Gruppe, der der Benutzer angehört. Wenn beispielsweise der Benutzer john123 ist, dann gelten die Gruppenberechtigungen für alle Gruppen, denen john123 angehört.

Sonstiges

Dies bezieht sich auf alle anderen Benutzer und auf Gruppen, denen der angegebene Benutzer nicht angehört.
Verwenden Sie die Beschreibungen Dateiberechtigungen unten, um die Servereigenschaften für Hadoop zu definieren, um sicherzustellen, dass die Sortier- und Filter-Features wie gewünscht arbeiten, wenn die Verbindung in einem Schritt oder einer Aktivität verwendet wird. Führen Sie einen dieser Schritte aus, um Eigenschaften hinzuzufügen:
- Klicken Sie auf , und fügen Sie die Eigenschaften und die zugehörigen Werte in den Feldern Eigenschaft und Wert hinzu.
- Klicken Sie auf , und laden Sie Ihre XML-Konfigurationsdatei hoch. Die XML-Datei sollte hdfs-site.xml, yarn-site.xml oder core-site.xml ähneln.
  Anmerkung: Legen Sie die Konfigurationsdatei auf dem Server ab.
Dateiberechtigungen und Parameter – Hadoop 1.x
Dieser Abschnitt gilt für diesen Schritt und dieser Aktivität:
- Schritt – Read from Sequence File
- Aktivität – Run Hadoop Pig
fs.default.name

Gibt den Knoten und den Port an, auf dem Hadoop läuft. Beispiel: hdfs://152.144.226.224:9000

mapred.job.tracker

Gibt den Hostnamen oder die IP-Adresse und den Port an, auf dem MapReduce Job Tracker läuft. Wenn der Hostname als lokal eingegeben wird, werden die Aufträge als einzelne „Map and Reduce“-Aufgaben ausgeführt. Beispiel: 152.144.226.224:9001

dfs.namenode.name.dir

Gibt an, wo ein DFS-Namensknoten die Namenstabelle auf dem lokalen Dateisystem speichern soll. Wenn dies eine durch Komma getrennte Liste von Verzeichnissen ist, wird die Namenstabelle aus Redundanzgründen zu allen Verzeichnissen repliziert. Beispiel: file:/home/hduser/Data/namenode

hadoop.tmp.dir

Gibt den Basisspeicherort für andere temporäre Verzeichnisse an. Beispiel: /home/hduser/Data/tmp
Dateiberechtigungen und Parameter – Hadoop 2.x
Dieser Abschnitt gilt für diesen Schritt und dieser Aktivität:
- Schritt – Read from Sequence File
- Aktivität – Run Hadoop Pig
fs.defaultFS

Gibt den Knoten und den Port an, auf dem Hadoop läuft. Beispiel: hdfs://152.144.226.224:9000.

HINWEIS: In Spectrum-Version 11.0 und älter muss der Parametername fs.defaultfs verwendet werden. Beachten Sie, dass die Groß-/Kleinschreibung sich unterscheidet. Ab Version 11 SP1 sind beide Namen, fs.defaultfs und fs.defaultFS, gültig. Wir empfehlen, für Releases 11.0 SP1 und höher den Parameternamen fs.defaultFS zu verwenden.

yarn.resourcemanager.resource-tracker.address

Gibt den Hostnamen oder die IP-Adresse des Ressourcenmanagers an. Beispiel: 152.144.226.224:8025

yarn.resourcemanager.scheduler.address

Gibt die Adresse der Planerschnittstelle an. Beispiel: 152.144.226.224:8030

yarn.resourcemanager.address

Gibt die Adresse der Schnittstelle des Anwendungsmanagers an, der im Ressourcenmanager enthalten ist. Beispiel: 152.144.226.224:8041

mapreduce.jobhistory.address

Gibt den Hostnamen oder die IP-Adresse und den Port, auf dem MapReduce Job History Server läuft. Beispiel: 152.144.226.224:10020

mapreduce.application.classpath

Gibt den CLASSPATH für MapReduce-Anwendungen an. Dieser CLASSPATH legt den Speicherort fest, an dem sich die Klassen bezüglich MapReduce-Anwendungen befinden. Die Einträge sollten durch Komma getrennt sein.

Beispiel:

$HADOOP_CONF_DIR, $HADOOP_COMMON_HOME/share/hadoop/common/*, $HADOOP_COMMON_HOME/share/hadoop/common/lib/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*, $HADOOP_YARN_HOME/share/hadoop/yarn/*, $HADOOP_YARN_HOME/share/hadoop/yarn/lib/*

mapreduce.app-submission.cross-platform

Dies verarbeitet verschiedene Plattformprobleme, die auftreten, wenn Ihr Spectrum-Server auf einem Windows-Computer läuft und Sie Cloudera darauf installieren. Wenn Ihr Spectrum-Server und Cloudera auf verschiedenen Betriebssystemen laufen, geben Sie für diesen Parameter den Wert wahr ein. Geben Sie anderenfalls False ein.
Anmerkung: Cloudera unterstützt keine Windows-Clients. Die Konfiguration dieses Parameters umgeht das Problem und stellt keine Lösung für alle daraus resultierenden Plattformprobleme dar.
Dateiberechtigungen und Parameter – Kerberos
Dieser Abschnitt gilt für diesen Schritt und dieser Aktivität:
- Schritt – Read from Sequence File
- Aktivität – Run Hadoop Pig
Wenn Sie das Kontrollkästchen Kerberos ausgewählt haben, fügen Sie diese Kerberos-Konfigurationseigenschaften hinzu:

hadoop.security.authentication

Gibt den verwendeten Authentifizierungssicherheitstyp an. Geben Sie den Wert kerberos ein.

yarn.resourcemanager.principal

Das Kerberos-Prinizip, das für den Ressourcenmanager für Ihren Hadoop YARN-Ressourcenvermittler verwendet wird. Beispiel: yarn/_HOST@HADOOP.COM

dfs.namenode.kerberos.principal

Das Kerberos-Prinzip, das für den Namensknoten Ihres Hadoop Distributed File System (HDFS) verwendet wird. Beispiel: hdfs/_HOST@HADOOP.COM

dfs.datanode.kerberos.principal

Das Kerberos-Prinzip, das für den Datenknoten Ihres Hadoop Distributed File System (HDFS) verwendet wird. Beispiel: hdfs/_HOST@HADOOP.COM
Dateiberechtigungen und Parameter – Hadoop 1.x
Diese Option wird auf diese Schritte angewendet:
- Schritt Read from File
- Schritt Write to File
- Schritt Read from Hive ORC File
- Schritt Write to Hive ORC File
fs.default.name

Gibt den Knoten und den Port an, auf dem Hadoop läuft. Beispiel: hdfs://152.144.226.224:9000
Dateiberechtigungen und Parameter – Hadoop 2.x
Diese Option wird auf diese Schritte angewendet:
- Schritt Read or write from File
- Schritt Read or write from Hive ORC File
fs.defaultFS

Gibt den Knoten und den Port an, auf dem Hadoop läuft. Beispiel: hdfs://152.144.226.224:9000

HINWEIS: In Spectrum-Version 11.0 und älter muss der Parametername fs.defaultfs verwendet werden. Beachten Sie, dass die Groß-/Kleinschreibung sich unterscheidet. Ab Version 11 SP1 sind beide Namen, fs.defaultfs und fs.defaultFS, gültig. Wir empfehlen, für Releases 11.0 SP1 und höher den Parameternamen fs.defaultFS zu verwenden.
Um die Verbindung zu testen, klicken Sie auf Testen.
Klicken Sie auf Speichern.

Nachdem Sie eine Verbindung zu einem HDFS-Cluster definiert haben, ist diese in Quell- und Datenladeschritten im Enterprise Designer wie „Read from File“ und „Write to File“ verfügbar. Sie können das HDFS-Cluster beim Definieren einer Datei in einem Quell- oder Datenladeschritt auswählen, indem Sie auf Remote-Computer klicken.