Verbinden mit Hadoop

Sie können Flüsse in Enterprise Designer erstellen, indem Sie diese Phasen des Enterprise Big Data-Moduls verwenden, um Daten aus dieser Datenbank zu lesen und Daten in diese Datenbank zu schreiben.

  • Read from Hadoop Sequence File
  • Write to Hadoop Sequence File
Achtung: Hadoop 2.x für Kerberos auf Windows-Plattformen wird von Spectrum™ Technology Platform nicht unterstützt.
  1. Greifen Sie über eines der folgenden Module auf die Seite Datenquellen zu:
    Management Console:
    Öffnen Sie die Management Console über die URL: http://server:port/managementconsole, wobei server der Servername oder die IP-Adresse Ihres Spectrum™ Technology Platform-Servers und port der von Spectrum™ Technology Platform verwendete HTTP-Port ist.
    Anmerkung: Der HTTP-Port ist standardmäßig auf 8080 eingestellt.
    Öffnen Sie Ressourcen > Datenquellen.
    Metadata Insights:
    Öffnen Sie die Management Console über die URL: http://server:port/metadata-insights, wobei server der Servername oder die IP-Adresse Ihres Spectrum™ Technology Platform-Servers und port der von Spectrum™ Technology Platform verwendete HTTP-Port ist.
    Anmerkung: Der HTTP-Port ist standardmäßig auf 8080 eingestellt.
    Öffnen Sie Datenquellen.
  2. Klicken Sie auf die Schaltfläche Hinzufügen .
  3. Geben Sie im Feld Name einen Namen für die Verbindung ein. Sie können den Namen frei wählen.
    Anmerkung: Sobald Sie eine Verbindung gespeichert haben, können Sie den Namen nicht mehr ändern.
  4. Wählen Sie im Feld Typ HDFS aus
  5. Geben Sie im Feld Host den Hostnamen oder die IP-Adresse des Namensknotens im HDFS-Cluster ein.
  6. Geben Sie im Feld Port die Netzwerkportnummer ein.
  7. Wählen Sie in Benutzer eine der folgenden Optionen aus:
    Serverbenutzer
    Wählen Sie diese Option aus, wenn in Ihrem HDFS-Cluster Authentifizierung aktiviert ist. Diese Option verwendet die Benutzeranmeldedaten, unter denen der Spectrum™ Technology Platform-Server läuft, um sich gegenüber HDFS zu authentifizieren.
    Benutzername
    Wählen Sie diese Option aus, wenn in Ihrem HDFS-Cluster Authentifizierung deaktiviert ist.
  8. Aktivieren Sie Kerberos, wenn Sie das Feature Kerberos-Authentifizierung für diese HDFS-Dateiserververbindung aktivieren möchten.
  9. Wenn Sie sich für die Aktivierung der Kerberos-Authentifizierung entschieden haben, geben Sie den Pfad zur Schlüsseltabellendatei im Feld Schlüsseltabellen-Dateipfad ein.
    Anmerkung: Vergewissern Sie sich, dass sich die Schlüsseltabellendatei auf dem Spectrum™ Technology Platform-Server befindet.
  10. Wählen Sie im Feld Protokoll eine der folgenden Optionen aus:
    WEBHDFS
    Wählen Sie diese Option aus, wenn auf dem HDFS-Cluster HDFS 1.0 oder höher läuft. Dieses Protokoll unterstützt sowohl Lese- als auch Schreibvorgänge.
    HFTP
    Wählen Sie diese Option aus, wenn auf dem HDFS-Cluster eine Version läuft, die älter ist als HDFS 1.0, oder wenn Ihre Organisation die Verwendung des WEBHDFS-Protokolls nicht zulässt. Dieses Protokoll unterstützt nur Lesevorgänge.
    HAR
    Wählen Sie diese Option aus, um auf Hadoop-Archivdateien zuzugreifen. Wenn Sie diese Option auswählen, geben Sie im Feld Pfad den Pfad zur Archivdatei an. Dieses Protokoll unterstützt nur Lesevorgänge.
  11. Erweitern Sie Erweiterte Optionen.
  12. Wenn Sie das WEBHDFS-Protokoll ausgewählt haben, können Sie folgende erweiterte Optionen nach Bedarf festlegen:
    Replikationsfaktor
    Geben Sie hier an, zu wie vielen Datenknoten jeder Block repliziert werden soll. Die Standardeinstellung 3 repliziert beispielsweise jeden Block zu drei verschiedenen Knoten im Cluster. Der maximale Replikationsfaktor ist 1024.
    Blockgröße
    Geben Sie hier die Größe eines Blocks an. HDFS teilt eine Datei in Blöcke auf, die die von Ihnen hier angegebene Größe aufweisen. Wenn Sie beispielsweise den Standardwert 64 MB angeben, wird jede Datei in 64-MB-Blöcke aufgeteilt. Jeder Block wird dann zu der Anzahl von Knoten im Cluster repliziert, die im Feld Replikationsfaktor angegeben ist.
    Dateiberechtigungen
    Legen Sie hier die Zugriffsstufe auf Dateien fest, die von Spectrum™ Technology Platform in das HDFS-Cluster geschrieben werden. Sie können Lese- und Schreibberechtigungen für jede der folgenden Optionen festlegen:
    Anmerkung: Die Berechtigung Ausführen ist bei Spectrum™ Technology Platform nicht anwendbar.
    Benutzer
    Dies ist der oben angegebene Benutzer, entweder Serverbenutzer oder der im Feld Benutzername angegebene Benutzer.
    Group
    Dies bezieht sich auf jede Gruppe, der der Benutzer angehört. Wenn beispielsweise der Benutzer john123 ist, dann gelten die Gruppenberechtigungen für alle Gruppen, denen john123 angehört.
    Sonstiges
    Dies bezieht sich auf alle anderen Benutzer und auf Gruppen, denen der angegebene Benutzer nicht angehört.
  13. Verwenden Sie die Beschreibungen Dateiberechtigungen unten, um die Servereigenschaften für Hadoop zu definieren, um sicherzustellen, dass die Sortier- und Filter-Features wie gewünscht arbeiten, wenn die Verbindung in einem Schritt oder einer Aktivität verwendet wird. Führen Sie einen dieser Schritte aus, um Eigenschaften hinzuzufügen:
    • Klicken Sie auf , und fügen Sie die Eigenschaften und die zugehörigen Werte in den Feldern Eigenschaft und Wert hinzu.
    • Klicken Sie auf , und laden Sie Ihre XML-Konfigurationsdatei hoch. Die XML-Datei sollte hdfs-site.xml, yarn-site.xml oder core-site.xml ähneln.
      Anmerkung: Legen Sie die Konfigurationsdatei auf dem Server ab.
    Dateiberechtigungen und Parameter – Hadoop 1.x
    Dieser Abschnitt gilt für diesen Schritt und dieser Aktivität:
    • Schritt – Read from Sequence File
    • Aktivität – Run Hadoop Pig
    fs.default.name
    Gibt den Knoten und den Port an, auf dem Hadoop läuft. Beispiel: hdfs://152.144.226.224:9000
    mapred.job.tracker
    Gibt den Hostnamen oder die IP-Adresse und den Port an, auf dem MapReduce Job Tracker läuft. Wenn der Hostname als lokal eingegeben wird, werden die Aufträge als einzelne „Map and Reduce“-Aufgaben ausgeführt. Beispiel: 152.144.226.224:9001
    dfs.namenode.name.dir
    Gibt an, wo ein DFS-Namensknoten die Namenstabelle auf dem lokalen Dateisystem speichern soll. Wenn dies eine durch Komma getrennte Liste von Verzeichnissen ist, wird die Namenstabelle aus Redundanzgründen zu allen Verzeichnissen repliziert. Beispiel: file:/home/hduser/Data/namenode
    hadoop.tmp.dir
    Gibt den Basisspeicherort für andere temporäre Verzeichnisse an. Beispiel: /home/hduser/Data/tmp
    Dateiberechtigungen und Parameter – Hadoop 2.x
    Dieser Abschnitt gilt für diesen Schritt und dieser Aktivität:
    • Schritt – Read from Sequence File
    • Aktivität – Run Hadoop Pig
    fs.defaultFS
    Gibt den Knoten und den Port an, auf dem Hadoop läuft. Beispiel: hdfs://152.144.226.224:9000.
    HINWEIS: In Spectrum-Version 11.0 und älter muss der Parametername fs.defaultfs verwendet werden. Beachten Sie, dass die Groß-/Kleinschreibung sich unterscheidet. Ab Version 11 SP1 sind beide Namen, fs.defaultfs und fs.defaultFS, gültig. Wir empfehlen, für Releases 11.0 SP1 und höher den Parameternamen fs.defaultFS zu verwenden.
    yarn.resourcemanager.resource-tracker.address
    Gibt den Hostnamen oder die IP-Adresse des Ressourcenmanagers an. Beispiel: 152.144.226.224:8025
    yarn.resourcemanager.scheduler.address
    Gibt die Adresse der Planerschnittstelle an. Beispiel: 152.144.226.224:8030
    yarn.resourcemanager.address
    Gibt die Adresse der Schnittstelle des Anwendungsmanagers an, der im Ressourcenmanager enthalten ist. Beispiel: 152.144.226.224:8041
    mapreduce.jobhistory.address
    Gibt den Hostnamen oder die IP-Adresse und den Port, auf dem MapReduce Job History Server läuft. Beispiel: 152.144.226.224:10020
    mapreduce.application.classpath
    Gibt den CLASSPATH für MapReduce-Anwendungen an. Dieser CLASSPATH legt den Speicherort fest, an dem sich die Klassen bezüglich MapReduce-Anwendungen befinden. Die Einträge sollten durch Komma getrennt sein.
    Beispiel:
    $HADOOP_CONF_DIR, $HADOOP_COMMON_HOME/share/hadoop/common/*, $HADOOP_COMMON_HOME/share/hadoop/common/lib/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*, $HADOOP_YARN_HOME/share/hadoop/yarn/*, $HADOOP_YARN_HOME/share/hadoop/yarn/lib/*
    mapreduce.app-submission.cross-platform
    Dies verarbeitet verschiedene Plattformprobleme, die auftreten, wenn Ihr Spectrum-Server auf einem Windows-Computer läuft und Sie Cloudera darauf installieren. Wenn Ihr Spectrum-Server und Cloudera auf verschiedenen Betriebssystemen laufen, geben Sie für diesen Parameter den Wert wahr ein. Geben Sie anderenfalls False ein.
    Anmerkung: Cloudera unterstützt keine Windows-Clients. Die Konfiguration dieses Parameters umgeht das Problem und stellt keine Lösung für alle daraus resultierenden Plattformprobleme dar.
    Dateiberechtigungen und Parameter – Kerberos
    Dieser Abschnitt gilt für diesen Schritt und dieser Aktivität:
    • Schritt – Read from Sequence File
    • Aktivität – Run Hadoop Pig
    Wenn Sie das Kontrollkästchen Kerberos ausgewählt haben, fügen Sie diese Kerberos-Konfigurationseigenschaften hinzu:
    hadoop.security.authentication
    Gibt den verwendeten Authentifizierungssicherheitstyp an. Geben Sie den Wert kerberos ein.
    yarn.resourcemanager.principal
    Das Kerberos-Prinizip, das für den Ressourcenmanager für Ihren Hadoop YARN-Ressourcenvermittler verwendet wird. Beispiel: yarn/_HOST@HADOOP.COM
    dfs.namenode.kerberos.principal
    Das Kerberos-Prinzip, das für den Namensknoten Ihres Hadoop Distributed File System (HDFS) verwendet wird. Beispiel: hdfs/_HOST@HADOOP.COM
    dfs.datanode.kerberos.principal
    Das Kerberos-Prinzip, das für den Datenknoten Ihres Hadoop Distributed File System (HDFS) verwendet wird. Beispiel: hdfs/_HOST@HADOOP.COM
    Dateiberechtigungen und Parameter – Hadoop 1.x
    Diese Option wird auf diese Schritte angewendet:
    • Schritt Read from File
    • Schritt Write to File
    • Schritt Read from Hive ORC File
    • Schritt Write to Hive ORC File
    fs.default.name
    Gibt den Knoten und den Port an, auf dem Hadoop läuft. Beispiel: hdfs://152.144.226.224:9000
    Dateiberechtigungen und Parameter – Hadoop 2.x
    Diese Option wird auf diese Schritte angewendet:
    • Schritt Read or write from File
    • Schritt Read or write from Hive ORC File
    fs.defaultFS
    Gibt den Knoten und den Port an, auf dem Hadoop läuft. Beispiel: hdfs://152.144.226.224:9000
    HINWEIS: In Spectrum-Version 11.0 und älter muss der Parametername fs.defaultfs verwendet werden. Beachten Sie, dass die Groß-/Kleinschreibung sich unterscheidet. Ab Version 11 SP1 sind beide Namen, fs.defaultfs und fs.defaultFS, gültig. Wir empfehlen, für Releases 11.0 SP1 und höher den Parameternamen fs.defaultFS zu verwenden.
  14. Um die Verbindung zu testen, klicken Sie auf Testen.
  15. Klicken Sie auf Speichern.

Nachdem Sie eine Verbindung zu einem HDFS-Cluster definiert haben, ist diese in Quell- und Datenladeschritten im Enterprise Designer wie „Read from File“ und „Write to File“ verfügbar. Sie können das HDFS-Cluster beim Definieren einer Datei in einem Quell- oder Datenladeschritt auswählen, indem Sie auf Remote-Computer klicken.