Submit Spark Job

Die Aktivität Submit Spark Job ermöglicht die Ausführung eines beliebigen Spark-Auftrags auf einem Hadoop-Cluster oder auf einem Spark-Cluster. Mit dieser Aktivität können Sie entweder einen Spark-Auftrag des Spectrum™ Big Data Quality SDK oder einen beliebigen externen Spark-Auftrag ausführen.

Momentan können Sie einen Spark-Auftrag an einen der beiden Clustertypen übermitteln:
  • YARN
  • Spark

Bereitstellungsmodi

Für einen Spark-Auftrag können Sie den Bereitstellungsmodus Cluster oder Client verwenden. Diese Bereitstellungsmodi legen fest, ob der Treiber für den Spark-Auftrag auf dem Cluster oder auf dem Client-Spectrum™ Technology Platform ausgeführt wird.

Einfach ausgedrückt, können Sie einen Spark-Auftrag in einem beliebigen der Bereitstellungsmodi ausführen:
  1. YARN-Cluster-Modus
  2. YARN-Client-Modus
  3. Spark-Client-Modus
Anmerkung: Der YARN- oder Spark-Client-Modus wird zur Ausführung empfohlen, wenn der Spectrum-Server in der Cluster-Umgebung installiert ist und dort ausgeführt wird.

Eine umfassende Liste der unterstützten Auftragskonfigurationen auf Windows- und Linux-Plattformen finden Sie in der Tabelle Unterstützte Auftragskonfigurationen.

Feld Beschreibung
Auftragsname Der Name des Spark-Auftrags.
Hadoop-Server Die Liste der konfigurierten Hadoop-Server.

Informationen zum Mapping von HDFS-Dateiservern über die Management Console finden Sie im Administratorhandbuch.

JAR-Pfad Der Pfad der relevanten JAR-Datei für den auszuführenden Spark-Auftrag.
Anmerkung: Der JAR-Pfad muss auf ein Verzeichnis auf dem Spectrum-Servercomputer verweisen.
Auftragstyp Wählen Sie eine Option:
Spectrum
Wählen Sie Spectrum aus, um einen beliebigen Spectrum Big Data Quality SDK-Auftrag auszuführen.

Wenn Sie Spectrum auswählen, wird das Feld Spectrum-Aufträge angezeigt.

Allgemein
Wählen Sie Allgemein aus, um weitere Eigenschaften für beliebige externe Aufträge anzugeben.
Spectrum-Aufträge Wählen Sie den benötigten Auftrag aus der Liste der Spectrum Big Data Quality SDK-Aufträge aus. Die Liste enthält diese Aufträge:
  • Adressenüberprüfung
  • Advanced Transformer
  • Best of Breed
  • Duplicate Synchronization
  • Filter
  • Groovy
  • Intraflow Match
  • Interflow Match
  • Joiner
  • Match Key Generator
  • Open Name Parser
  • Open Parser
  • Table Lookup
  • Transactional Match
  • Validate Address
  • Validate Address Global
Bei der Auswahl des gewünschten Spectrum-Auftrags:
  1. Die Felder Auftragsname, Klassenname und Argument werden automatisch ausgefüllt.

    Alle automatisch ausgefüllten Felder außer Klassenname können bei Bedarf bearbeitet werden.

    Wichtig: Bei dem ausgewählten Spectrum-Auftrag darf der automatisch ausgefüllte Klassenname nicht bearbeitet werden, da der Auftrag ansonsten nicht ausgeführt werden kann.
  2. Das Raster Eigenschaften wird automatisch mit den erforderlichen Konfigurationseigenschaften des ausgewählten Spectrum-Auftrags und deren Standardwerten ausgefüllt.

    Sie können weitere Eigenschaften hinzufügen oder importieren sowie die automatisch ausgefüllten Eigenschaften nach Bedarf ändern.

Klassenname Der vollständig qualifizierte Name der Treiberklasse des Auftrags.
Argumente Die durch Leerzeichen getrennte Liste von Argumenten. Diese werden zur Laufzeit zur Ausführung des Auftrags an die Treiberklasse weitergeleitet.

Zum Beispiel:

23Dec2016 /home/Hadoop/EYInc.txt
  1. Diese Variablen können als Argumente weitergeleitet werden, die definiert sind, zur Laufzeit Werte entweder im Quellschritt oder in diesem aktuellen Schritt des Prozessflusses zu akzeptieren.

    Wenn beispielsweise in der Ausgabe des vorherigen Schritts des Prozessflusses die Variable SalesStartRange definiert wurde, können Sie diese Variable in dieser Argumentenliste als ${SalesStartRange} zusammen mit anderen erforderlichen Argumenten einschließen. Beispiel:

    23Dec2016 /home/Hadoop/EYInc.txt ${SalesStartRange}
  2. Wenn ein bestimmtes Argument ein Leerzeichen enthält, schließen Sie dieses Argument in doppelte Anführungszeichen ein. Beispiel: "/home/Hadoop/Sales Records",.

Aufträge des Spectrum Big Data Quality SDK – Argumente:

Um die Spectrum Big Data Quality SDK Spark-Aufträge auszuführen, übergeben Sie die verschiedenen Konfigurationsdateien als Liste von Argumenten. Jeder Argumentschlüssel akzeptiert den Pfad einer einzelnen Konfigurationseigenschaftsdatei, wobei jede Datei mehrere Konfigurationseigenschaften enthält.

Die Syntax der Argumentenliste für Konfigurationseigenschaften ist:

[-config <Path to configuration file>] [-debug] [-input <Path to input configuration file>] [-conf <Path to Spark configuration file>] [-output <Path of output directory>]

Beispiel für einen Spark MatchKeyGenerator-Auftrag:

-config /home/hadoop/spark/matchkey/matchKeyGeneratorConfig.xml -input /home/hadoop/spark/matchkey/inputFileConfig.xml -output /home/hadoop/spark/matchkey/outputFileConfig.xml
Anmerkung: Wenn derselbe Konfigurationseigenschaftsschlüssel sowohl im Feld Argumente als auch im Raster Eigenschaften angegeben ist, aber jeder Schlüssel auf eine andere Konfigurationsdatei verweist, hat die Datei Vorrang, auf die im Raster Eigenschaften verwiesen wird.

Die Beispielkonfigurationseigenschaften werden mit dem Data and Address Quality for Big Data Quality SDK geliefert und befinden sich unter <Big Data Quality bundle>\samples\configuration.

Allgemeine Eigenschaften

Feld Beschreibung
Master Wählen Sie eine der Optionen für die Ausführung des Spark-Auftrags aus:
YARN
Zum Starten und Verwalten des Spark-Auftrags über YARN.
Spark
Zum Starten und Verwalten des Spark-Auftrags über eine Spark-Anwendung.
Spark-URL Die URL für den Zugriff auf der Spark-Cluster im Format <hostname of Spark cluster>:<port of Spark cluster>.

Dieses Feld wird angezeigt, wenn Sie im Feld Master Spark auswählen.

Bereitstellungsmodus Wählen Sie eine beliebige Option aus:
Client
Zur Ausführung des Spark-Auftragstreibers auf Client-Spectrum™ Technology Platform.
Cluster
Zur Ausführung des Spark-Auftragstreibers auf einem Cluster.
Eigenschaften Geben Sie im Raster in der Spalte Eigenschaft die Namen der Eigenschaften und in der Spalte Wert die Werte der zugehörigen Eigenschaften ein.

Abhängig vom Typ des Masters und des Bereitstellungsmodus sind einige Eigenschaften obligatorisch.

Obligatorische Eigenschaften für YARN
yarn.resourcemanager.hostname Die IP-Adresse des YARN ResourceManager.
yarn.resourcemanager.address Die Adresse einschließlich der IP-Adresse und des Ports des YARN ResourceManager im Format <Hostname>:<Port>.
Eigenschaften für den Client-Bereitstellungsmodus
Spark.driver.host Die IP-Adresse des Computers, auf dem der Spark-Treiber ausgeführt werden soll. Erforderlich
spark.client.mode.temp.location Der Pfad des Ordners temp auf dem Spectrum-Server, der für die Universal Addressing-Aufträge verwendet werden soll:
  • Validate Address
  • Validate Address Global
Anmerkung: Wir empfehlen dringend, diese Eigenschaft für die Universal Addressing-Aufträge zu verwenden, um sicherzustellen, dass der angegebene Ordner temp für Zwischenergebnisse verwendet wird.
Optional
Daher:
  1. Für den YARN-Cluster-Modus sind die ersten zwei Eigenschaften obligatorisch.
  2. Für den YARN-Client-Modus sind alle drei Eigenschaften obligatorisch.
  3. Für den Spark-Client-Modus ist die dritte Eigenschaft obligatorisch.
Anmerkung: Sie können die oben aufgeführten obligatorischen Eigenschaften entweder bei der Erstellung der Verbindung in der Management Console oder in dieser Spark-Aktivität definieren. Wenn dieselben Eigenschaften sowohl in der Management Console als auch in der Spark-Auftragsaktivität definiert sind, dann werden die Werte angewendet, die in der Spark-Aktivität zugewiesen wurden.
Sie können zusätzlich zu diesen obligatorischen Eigenschaften so viele weitere Eigenschaften eingeben oder importieren, wie zur Ausführung des Auftrags erforderlich sind.
Importieren Um Eigenschaften aus einer Datei zu importieren, klicken Sie auf Importieren. Navigieren Sie zum Speicherort der jeweiligen Eigenschaftsdatei, und wählen Sie die Datei im XML-Format aus. Die in der importierten Datei enthaltenen Eigenschaften werden in das Raster Eigenschaften kopiert.
Anmerkung:
  1. Wenn dieselbe Eigenschaft dort und in der Management Console definiert wurde, überschreiben die dort definierten Werte die in der Management Console definierten Werte.
  2. Die Eigenschaftsdatei muss im XML-Format vorliegen und dieser Syntax folgen:
    <configuration>
        <property>
            <name>key</name>
            <value>some_value</value>
            <description>A brief description of the 
              purpose of the property key.</description>
        </property>
    </configuration>
    Erstellen Sie Ihre eigenen Eigenschaftsdateien unter Verwendung des oben angeführten XML-Formats.
  3. Wenn dieselbe Eigenschaft im Raster und auch in der importierten Eigenschaftsdatei vorhanden ist, dann überschreibt der aus der Datei importierte Wert den im Raster für dieselbe Eigenschaft vorhandenen Wert.
  4. Sie können falls erforderlich mehrere Eigenschaftsdateien nacheinander importieren. Die in den einzelnen importierten Dateien enthaltenen Eigenschaften werden im Raster hinzugefügt.
  5. Stellen Sie sicher, dass die Eigenschaftsdatei auf dem Spectrum™ Technology Platform-Server vorhanden ist.
  6. Das Tag <description> ist für alle Eigenschaftsschlüssel in einer Konfigurationseigenschaftsdatei optional.
  7. Referenzdaten müssen lokal auf Datenknoten platziert werden, um die relevanten Aufträge auszuführen. Diese Eigenschaft ist nur für Aufträge verfügbar, die Referenzdaten verwenden, z. B. Advanced Transformer, Validate Address Global und Validate Address. Die Eigenschaft ist: pb.bdq.reference.data.location.

Abhängigkeiten

Fügen Sie auf dieser Registerkarte die Liste mit den Eingabedateien und JAR-Dateien hinzu, die zur Ausführung des Auftrags erforderlich sind.

Nachdem der Auftrag ausgeführt wurde, sind die dort hinzugefügten Referenzdateien und JAR-Referenzdateien im verteilten Cache des Auftrags verfügbar.

Referenzdateien
Um die verschiedenen Dateien hinzuzufügen, die als Eingabe für die Ausführung des Auftrags erforderlich sind, klicken Sie auf Hinzufügen, navigieren Sie zum entsprechenden Speicherort auf Ihrem lokalen System oder Cluster und wählen Sie die gewünschte Datei aus.

Um eine beliebige, der Liste hinzugefügte Datei zu entfernen, wählen Sie diese Datei aus und klicken Sie auf Entfernen.

JAR-Referenzdateien
Um die JAR-Dateien hinzuzufügen, die für die Ausführung des Auftrags erforderlich sind, klicken Sie auf Hinzufügen, navigieren Sie zum entsprechenden Speicherort auf Ihrem lokalen System oder Cluster und wählen Sie die gewünschte Datei aus.

Um eine beliebige, der Liste hinzugefügte Datei zu entfernen, wählen Sie diese Datei aus und klicken Sie auf Entfernen.

Anmerkung: Der JAR-Pfad muss auf ein Verzeichnis auf dem Spectrum-Servercomputer verweisen.