Submit Spark Job

Bereitstellungsmodi

Für einen Spark-Auftrag können Sie den Bereitstellungsmodus Cluster oder Client verwenden. Diese Bereitstellungsmodi legen fest, ob der Treiber für den Spark-Auftrag auf dem Cluster oder auf dem Client-Spectrum™ Technology Platform ausgeführt wird.

Einfach ausgedrückt, können Sie einen Spark-Auftrag in einem beliebigen der Bereitstellungsmodi ausführen:

YARN-Cluster-Modus
YARN-Client-Modus
Spark-Client-Modus

Anmerkung: Der YARN- oder Spark-Client-Modus wird zur Ausführung empfohlen, wenn der Spectrum-Server in der Cluster-Umgebung installiert ist und dort ausgeführt wird.

Eine umfassende Liste der unterstützten Auftragskonfigurationen auf Windows- und Linux-Plattformen finden Sie in der Tabelle Unterstützte Auftragskonfigurationen.


Feld	Beschreibung
Auftragsname	Der Name des Spark-Auftrags.
Hadoop-Server	Die Liste der konfigurierten Hadoop-Server. Informationen zum Mapping von HDFS-Dateiservern über die Management Console finden Sie im Administratorhandbuch.
JAR-Pfad	Der Pfad der relevanten JAR-Datei für den auszuführenden Spark-Auftrag. Anmerkung: Der JAR-Pfad muss auf ein Verzeichnis auf dem Spectrum-Servercomputer verweisen.
Auftragstyp	Wählen Sie eine Option: Spectrum Wählen Sie `Spectrum` aus, um einen beliebigen Spectrum Big Data Quality SDK-Auftrag auszuführen. Wenn Sie `Spectrum` auswählen, wird das Feld Spectrum-Aufträge angezeigt. Allgemein Wählen Sie `Allgemein` aus, um weitere Eigenschaften für beliebige externe Aufträge anzugeben.
Spectrum-Aufträge	Wählen Sie den benötigten Auftrag aus der Liste der Spectrum Big Data Quality SDK-Aufträge aus. Die Liste enthält diese Aufträge: Adressenüberprüfung Advanced Transformer Best of Breed Duplicate Synchronization Filter Groovy Intraflow Match Interflow Match Joiner Match Key Generator Open Name Parser Open Parser Table Lookup Transactional Match Validate Address Validate Address Global Bei der Auswahl des gewünschten Spectrum-Auftrags: Die Felder Auftragsname, Klassenname und Argument werden automatisch ausgefüllt. Alle automatisch ausgefüllten Felder außer Klassenname können bei Bedarf bearbeitet werden. Wichtig: Bei dem ausgewählten Spectrum-Auftrag darf der automatisch ausgefüllte Klassenname nicht bearbeitet werden, da der Auftrag ansonsten nicht ausgeführt werden kann. Das Raster Eigenschaften wird automatisch mit den erforderlichen Konfigurationseigenschaften des ausgewählten Spectrum-Auftrags und deren Standardwerten ausgefüllt. Sie können weitere Eigenschaften hinzufügen oder importieren sowie die automatisch ausgefüllten Eigenschaften nach Bedarf ändern.
Klassenname	Der vollständig qualifizierte Name der Treiberklasse des Auftrags.
Argumente	Die durch Leerzeichen getrennte Liste von Argumenten. Diese werden zur Laufzeit zur Ausführung des Auftrags an die Treiberklasse weitergeleitet. Zum Beispiel: `23Dec2016 /home/Hadoop/EYInc.txt` Diese Variablen können als Argumente weitergeleitet werden, die definiert sind, zur Laufzeit Werte entweder im Quellschritt oder in diesem aktuellen Schritt des Prozessflusses zu akzeptieren. Wenn beispielsweise in der Ausgabe des vorherigen Schritts des Prozessflusses die Variable `SalesStartRange` definiert wurde, können Sie diese Variable in dieser Argumentenliste als `${SalesStartRange}` zusammen mit anderen erforderlichen Argumenten einschließen. Beispiel: `23Dec2016 /home/Hadoop/EYInc.txt ${SalesStartRange}` Wenn ein bestimmtes Argument ein Leerzeichen enthält, schließen Sie dieses Argument in doppelte Anführungszeichen ein. Beispiel: "/home/Hadoop/Sales Records",. Aufträge des Spectrum Big Data Quality SDK – Argumente: Um die Spectrum Big Data Quality SDK Spark-Aufträge auszuführen, übergeben Sie die verschiedenen Konfigurationsdateien als Liste von Argumenten. Jeder Argumentschlüssel akzeptiert den Pfad einer einzelnen Konfigurationseigenschaftsdatei, wobei jede Datei mehrere Konfigurationseigenschaften enthält. Die Syntax der Argumentenliste für Konfigurationseigenschaften ist: `[-config <Path to configuration file>] [-debug] [-input <Path to input configuration file>] [-conf <Path to Spark configuration file>] [-output <Path of output directory>]` Beispiel für einen Spark MatchKeyGenerator-Auftrag: `-config /home/hadoop/spark/matchkey/matchKeyGeneratorConfig.xml -input /home/hadoop/spark/matchkey/inputFileConfig.xml -output /home/hadoop/spark/matchkey/outputFileConfig.xml` Anmerkung: Wenn derselbe Konfigurationseigenschaftsschlüssel sowohl im Feld Argumente als auch im Raster Eigenschaften angegeben ist, aber jeder Schlüssel auf eine andere Konfigurationsdatei verweist, hat die Datei Vorrang, auf die im Raster Eigenschaften verwiesen wird. Die Beispielkonfigurationseigenschaften werden mit dem Data and Address Quality for Big Data Quality SDK geliefert und befinden sich unter <Big Data Quality bundle>\samples\configuration.

Allgemeine Eigenschaften

Feld Beschreibung

Master

Wählen Sie eine der Optionen für die Ausführung des Spark-Auftrags aus:

YARN: Zum Starten und Verwalten des Spark-Auftrags über YARN.
Spark: Zum Starten und Verwalten des Spark-Auftrags über eine Spark-Anwendung.

Spark-URL

Die URL für den Zugriff auf der Spark-Cluster im Format

<hostname of Spark
         cluster>:<port of Spark cluster>

.

Dieses Feld wird angezeigt, wenn Sie im Feld Master Spark auswählen.

Bereitstellungsmodus

Wählen Sie eine beliebige Option aus:

Client: Zur Ausführung des Spark-Auftragstreibers auf Client-Spectrum™ Technology Platform.
Cluster: Zur Ausführung des Spark-Auftragstreibers auf einem Cluster.

Eigenschaften

Geben Sie im Raster in der Spalte Eigenschaft die Namen der Eigenschaften und in der Spalte Wert die Werte der zugehörigen Eigenschaften ein.

Abhängig vom Typ des Masters und des Bereitstellungsmodus sind einige Eigenschaften obligatorisch.

Obligatorische Eigenschaften für YARN
`yarn.resourcemanager.hostname`	Die IP-Adresse des YARN ResourceManager.
`yarn.resourcemanager.address`	Die Adresse einschließlich der IP-Adresse und des Ports des YARN ResourceManager im Format `<Hostname>:<Port>`.

Eigenschaften für den Client-Bereitstellungsmodus
`Spark.driver.host`	Die IP-Adresse des Computers, auf dem der Spark-Treiber ausgeführt werden soll.	Erforderlich
`spark.client.mode.temp.location`	Der Pfad des Ordners temp auf dem Spectrum-Server, der für die Universal Addressing-Aufträge verwendet werden soll: Validate Address Validate Address Global Anmerkung: Wir empfehlen dringend, diese Eigenschaft für die Universal Addressing-Aufträge zu verwenden, um sicherzustellen, dass der angegebene Ordner temp für Zwischenergebnisse verwendet wird.	Optional

Daher:

Für den YARN-Cluster-Modus sind die ersten zwei Eigenschaften obligatorisch.
Für den YARN-Client-Modus sind alle drei Eigenschaften obligatorisch.
Für den Spark-Client-Modus ist die dritte Eigenschaft obligatorisch.

Anmerkung: Sie können die oben aufgeführten obligatorischen Eigenschaften entweder bei der Erstellung der Verbindung in der Management Console oder in dieser Spark-Aktivität definieren. Wenn dieselben Eigenschaften sowohl in der Management Console als auch in der Spark-Auftragsaktivität definiert sind, dann werden die Werte angewendet, die in der Spark-Aktivität zugewiesen wurden.

Sie können zusätzlich zu diesen obligatorischen Eigenschaften so viele weitere Eigenschaften eingeben oder importieren, wie zur Ausführung des Auftrags erforderlich sind.

Importieren

Um Eigenschaften aus einer Datei zu importieren, klicken Sie auf Importieren. Navigieren Sie zum Speicherort der jeweiligen Eigenschaftsdatei, und wählen Sie die Datei im XML-Format aus. Die in der importierten Datei enthaltenen Eigenschaften werden in das Raster Eigenschaften kopiert.

Anmerkung:

Wenn dieselbe Eigenschaft dort und in der Management Console definiert wurde, überschreiben die dort definierten Werte die in der Management Console definierten Werte.

Die Eigenschaftsdatei muss im XML-Format vorliegen und dieser Syntax folgen:

<configuration>
    <property>
        <name>key</name>
        <value>some_value</value>
        <description>A brief description of the 
          purpose of the property key.</description>
    </property>
</configuration>

Erstellen Sie Ihre eigenen Eigenschaftsdateien unter Verwendung des oben angeführten XML-Formats.

Wenn dieselbe Eigenschaft im Raster und auch in der importierten Eigenschaftsdatei vorhanden ist, dann überschreibt der aus der Datei importierte Wert den im Raster für dieselbe Eigenschaft vorhandenen Wert.
Sie können falls erforderlich mehrere Eigenschaftsdateien nacheinander importieren. Die in den einzelnen importierten Dateien enthaltenen Eigenschaften werden im Raster hinzugefügt.
Stellen Sie sicher, dass die Eigenschaftsdatei auf dem Spectrum™ Technology Platform-Server vorhanden ist.
Das Tag <description> ist für alle Eigenschaftsschlüssel in einer Konfigurationseigenschaftsdatei optional.
Referenzdaten müssen lokal auf Datenknoten platziert werden, um die relevanten Aufträge auszuführen. Diese Eigenschaft ist nur für Aufträge verfügbar, die Referenzdaten verwenden, z. B. Advanced Transformer, Validate Address Global und Validate Address. Die Eigenschaft ist: pb.bdq.reference.data.location.

Abhängigkeiten

Fügen Sie auf dieser Registerkarte die Liste mit den Eingabedateien und JAR-Dateien hinzu, die zur Ausführung des Auftrags erforderlich sind.

Nachdem der Auftrag ausgeführt wurde, sind die dort hinzugefügten Referenzdateien und JAR-Referenzdateien im verteilten Cache des Auftrags verfügbar.

Referenzdateien: Um die verschiedenen Dateien hinzuzufügen, die als Eingabe für die Ausführung des Auftrags erforderlich sind, klicken Sie auf Hinzufügen, navigieren Sie zum entsprechenden Speicherort auf Ihrem lokalen System oder Cluster und wählen Sie die gewünschte Datei aus.
Um eine beliebige, der Liste hinzugefügte Datei zu entfernen, wählen Sie diese Datei aus und klicken Sie auf Entfernen.
JAR-Referenzdateien: Um die JAR-Dateien hinzuzufügen, die für die Ausführung des Auftrags erforderlich sind, klicken Sie auf Hinzufügen, navigieren Sie zum entsprechenden Speicherort auf Ihrem lokalen System oder Cluster und wählen Sie die gewünschte Datei aus.
Um eine beliebige, der Liste hinzugefügte Datei zu entfernen, wählen Sie diese Datei aus und klicken Sie auf Entfernen.

Anmerkung: Der JAR-Pfad muss auf ein Verzeichnis auf dem Spectrum-Servercomputer verweisen.