Submit Spark Job
Die Aktivität Submit Spark Job ermöglicht die Ausführung eines beliebigen Spark-Auftrags auf einem Hadoop-Cluster oder auf einem Spark-Cluster. Mit dieser Aktivität können Sie entweder einen Spark-Auftrag des Spectrum™ Big Data Quality SDK oder einen beliebigen externen Spark-Auftrag ausführen.
- YARN
- Spark
Bereitstellungsmodi
Für einen Spark-Auftrag können Sie den Bereitstellungsmodus Cluster oder Client verwenden. Diese Bereitstellungsmodi legen fest, ob der Treiber für den Spark-Auftrag auf dem Cluster oder auf dem Client-Spectrum™ Technology Platform ausgeführt wird.
- YARN-Cluster-Modus
- YARN-Client-Modus
- Spark-Client-Modus
Eine umfassende Liste der unterstützten Auftragskonfigurationen auf Windows- und Linux-Plattformen finden Sie in der Tabelle Unterstützte Auftragskonfigurationen.
Feld | Beschreibung |
---|---|
Auftragsname | Der Name des Spark-Auftrags. |
Hadoop-Server | Die Liste der konfigurierten Hadoop-Server. Informationen zum Mapping von HDFS-Dateiservern über die Management Console finden Sie im Administratorhandbuch. |
JAR-Pfad | Der Pfad der relevanten JAR-Datei für den auszuführenden Spark-Auftrag. Anmerkung: Der JAR-Pfad muss auf ein Verzeichnis auf dem Spectrum-Servercomputer verweisen. |
Auftragstyp | Wählen Sie eine Option:
|
Spectrum-Aufträge | Wählen Sie den benötigten Auftrag aus der Liste der Spectrum Big Data Quality SDK-Aufträge aus. Die Liste enthält diese Aufträge:
Bei der Auswahl des gewünschten Spectrum-Auftrags:
|
Klassenname | Der vollständig qualifizierte Name der Treiberklasse des Auftrags. |
Argumente | Die durch Leerzeichen getrennte Liste von Argumenten. Diese werden zur Laufzeit zur Ausführung des Auftrags an die Treiberklasse weitergeleitet. Zum Beispiel:
Um die Spectrum Big Data Quality SDK Spark-Aufträge auszuführen, übergeben Sie die verschiedenen Konfigurationsdateien als Liste von Argumenten. Jeder Argumentschlüssel akzeptiert den Pfad einer einzelnen Konfigurationseigenschaftsdatei, wobei jede Datei mehrere Konfigurationseigenschaften enthält. Die Syntax der Argumentenliste für Konfigurationseigenschaften ist: [-config <Path to
configuration file>] [-debug] [-input <Path to input configuration file>] [-conf
<Path to Spark configuration file>] [-output <Path of output
directory>] Beispiel für einen Spark MatchKeyGenerator-Auftrag: -config
/home/hadoop/spark/matchkey/matchKeyGeneratorConfig.xml -input
/home/hadoop/spark/matchkey/inputFileConfig.xml -output
/home/hadoop/spark/matchkey/outputFileConfig.xml Anmerkung: Wenn derselbe Konfigurationseigenschaftsschlüssel sowohl im Feld Argumente als auch im Raster Eigenschaften angegeben ist, aber jeder Schlüssel auf eine andere Konfigurationsdatei verweist, hat die Datei Vorrang, auf die im Raster Eigenschaften verwiesen wird. Die Beispielkonfigurationseigenschaften werden mit dem Data and Address Quality for Big Data Quality SDK geliefert und befinden sich unter <Big Data Quality bundle>\samples\configuration. |
Allgemeine Eigenschaften
Feld | Beschreibung | |||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Master | Wählen Sie eine der Optionen für die Ausführung des Spark-Auftrags aus:
|
|||||||||||||||
Spark-URL | Die URL für den Zugriff auf der Spark-Cluster im Format <hostname of Spark
cluster>:<port of Spark cluster> .Dieses Feld wird angezeigt, wenn Sie im Feld Master Spark auswählen. |
|||||||||||||||
Bereitstellungsmodus | Wählen Sie eine beliebige Option aus:
|
|||||||||||||||
Eigenschaften | Geben Sie im Raster in der Spalte Eigenschaft die Namen der Eigenschaften und in der Spalte Wert die Werte der zugehörigen Eigenschaften ein. Abhängig vom Typ des Masters und des Bereitstellungsmodus sind einige Eigenschaften obligatorisch.
Anmerkung: Sie können die oben aufgeführten obligatorischen Eigenschaften entweder bei der Erstellung der Verbindung in der Management Console oder in dieser Spark-Aktivität definieren. Wenn dieselben Eigenschaften sowohl in der Management Console als auch in der Spark-Auftragsaktivität definiert sind, dann werden die Werte angewendet, die in der Spark-Aktivität zugewiesen wurden. Sie können zusätzlich zu diesen obligatorischen Eigenschaften so viele weitere Eigenschaften eingeben oder importieren, wie zur Ausführung des Auftrags erforderlich sind. |
|||||||||||||||
Importieren | Um Eigenschaften aus einer Datei zu importieren, klicken Sie auf Importieren. Navigieren Sie zum Speicherort der jeweiligen Eigenschaftsdatei, und wählen Sie die Datei im XML-Format aus. Die in der importierten Datei enthaltenen Eigenschaften werden in das Raster Eigenschaften kopiert. Anmerkung:
|
Abhängigkeiten
Fügen Sie auf dieser Registerkarte die Liste mit den Eingabedateien und JAR-Dateien hinzu, die zur Ausführung des Auftrags erforderlich sind.Nachdem der Auftrag ausgeführt wurde, sind die dort hinzugefügten Referenzdateien und JAR-Referenzdateien im verteilten Cache des Auftrags verfügbar.
- Referenzdateien
- Um die verschiedenen Dateien hinzuzufügen, die als Eingabe für die Ausführung des Auftrags erforderlich sind, klicken Sie auf Hinzufügen, navigieren Sie zum entsprechenden Speicherort auf Ihrem lokalen System oder Cluster und wählen Sie die gewünschte Datei aus.
Um eine beliebige, der Liste hinzugefügte Datei zu entfernen, wählen Sie diese Datei aus und klicken Sie auf Entfernen.
- JAR-Referenzdateien
- Um die JAR-Dateien hinzuzufügen, die für die Ausführung des Auftrags erforderlich sind, klicken Sie auf Hinzufügen, navigieren Sie zum entsprechenden Speicherort auf Ihrem lokalen System oder Cluster und wählen Sie die gewünschte Datei aus.
Um eine beliebige, der Liste hinzugefügte Datei zu entfernen, wählen Sie diese Datei aus und klicken Sie auf Entfernen.