Spark Sorter

Mit der Aktivität Spark Sorter können Sie riesige Datensatzmengen sortieren. Diese Aktivität verwendet zur Ausführung Apache Spark-Bibliotheken und läuft auf Ihrem Spectrum™ Technology Platform-Server.

Derzeit werden Dateien mit Begrenzungszeichen, die auf dem Spectrum™ Technology Platform-Server vorhanden sind, für das Einlesen der Eingabedatensätze akzeptiert.

Anmerkung: Dateien auf Remoteservern werden nicht unterstützt.
Feld Beschreibung
Servername

Zeigt den Speicherort der Datei an, die Sie als Eingabe ausgewählt haben.

Da die Spark Sorter-Aktivität nur Dateien akzeptiert, die sich auf dem Spectrum™ Technology Platform-Server befinden, wird in diesem Feld Spectrum™ Technology Platform angezeigt.

Dateiname

Gibt den Pfad zur Datei an. Klicken Sie auf die Ellipsenschaltfläche (...), um zur gewünschten Datei zu navigieren.

Sie können ein Platzhalterzeichen verwenden, um Daten aus mehreren Dateien im Verzeichnis einzulesen. Die Platzhalterzeichen * und ? werden unterstützt. Sie können beispielsweise *.csv eingeben, um alle Dateien mit der Erweiterung .csv im Verzeichnis auszulesen. Um mehrere Dateien erfolgreich einzulesen, muss jede Datei über dasselbe Layout (die gleichen Felder an der gleichen Position) verfügen. Alle Datensätze, die nicht mit dem auf der Registerkarte Felder angegebenen Layout übereinstimmen, werden als falsch formatierte Datensätze behandelt.

Achtung: Falls der Spectrum™ Technology Platform-Server unter Unix oder Linux ausgeführt wird, berücksichtigen Sie, dass bei Dateinamen und Pfaden auf diesen Plattformen die Groß-/Kleinschreibung beachtet wird.
Datensatztyp Dies ist das Format der Datensätze in der Datei. Derzeit werden Dateiformate mit Begrenzungszeichen als Eingabe akzeptiert.
Mit Begrenzungszeichen
Dies ist eine Textdatei, in der Datensätze durch ein Zeilenendzeichen (EOL, End of Line) wie Zeilenumbruch oder Zeilenvorschub (CR oder LF, Carriage Return oder Line Feed) getrennt sind und jedes Feld durch ein angegebenes Zeichen wie beispielsweise ein Komma getrennt ist.
Zeichencodierung

Die Zeichencodierung der Eingabedatei.

Die Codierung UTF-8 wird unterstützt. Weitere Informationen zu UTF finden Sie unter unicode.org/faq/utf_bom.html.

Feldtrennzeichen

Gibt das Zeichen an, das zum Trennen von Feldern in einer Datei mit Begrenzungszeichen verwendet wird.

Im folgenden Beispiel wird ein Pipe-Zeichen ( | ) im Datensatz als Feldtrennzeichen verwendet:

7200 13TH ST|MIAMI|FL|33144

Die folgenden Zeichen stehen zur Definition als Feldtrennzeichen zur Verfügung:

  • Leerzeichen
  • Tabulator
  • Komma
  • Punkt
  • Semikolon
  • Pipe

Wenn in der Datei ein anderes Zeichen als Feldtrennzeichen verwendet wird, klicken Sie auf die Ellipsenschaltfläche, um ein anderes Zeichen als Begrenzungszeichen auszuwählen.

Textbegrenzungszeichen

Dies ist das Zeichen, das in einer Datei mit Begrenzungszeichen Textwerte umschließt.

Im folgenden Beispiel werden im Datensatz doppelte Anführungszeichen (") als Textbegrenzungszeichen verwendet.

"7200 13TH ST"|"MIAMI"|"FL"|"33144"

Die folgenden Zeichen stehen zur Definition als Textbegrenzungszeichen zur Verfügung:

  • einfaches Anführungszeichen ( ' )
  • doppeltes Anführungszeichen ( " )

Wenn in der Datei ein anderes Textbegrenzungszeichen verwendet wird, klicken Sie auf die Ellipsenschaltfläche, um ein anderes Zeichen als Textbegrenzungszeichen auszuwählen.

Datensatz-Trennzeichen

Gibt das Zeichen an, das zum Trennen von Datensätzen in einer zeilensequenziellen Datei oder einer Datei mit Begrenzungszeichen verwendet wird. Dieses Feld ist nicht verfügbar, wenn Sie das Kästchen Standard-Zeilenende verwenden aktivieren.

Die verfügbaren Einstellungen für Datensatz-Trennzeichen sind:

Unix (U+000A)
Die Datensätze sind durch ein Zeilenvorschubzeichen getrennt. Dies ist bei Unix-Systemen das standardmäßige Datensatz-Trennzeichen.
Macintosh (U+000D)
Die Datensätze sind durch ein Zeilenumbruchzeichen getrennt. Dies ist bei Macintosh-Systemen das standardmäßige Datensatz-Trennzeichen.
Windows (U+000D U+000A)
Die Datensätze sind durch ein Zeilenumbruchzeichen gefolgt von einem Zeilenvorschubzeichen getrennt. Dies ist bei Windows-Systemen das standardmäßige Datensatz-Trennzeichen.

Wenn in der Datei ein anderes Datensatz-Trennzeichen verwendet wird, klicken Sie auf die Ellipsenschaltfläche, um ein anderes Zeichen als Datensatz-Trennzeichen auszuwählen.

Standard-Zeilenende verwenden

Gibt an, dass das standardmäßige Zeilenendzeichen (EOL) des Betriebssystems, auf dem der Spectrum™ Technology Platform-Server läuft, als Datensatz-Trennzeichen der Datei verwendet wird.

Wählen Sie diese Option nicht aus, wenn in der Datei ein Zeilenendzeichen verwendet wird, das sich vom standardmäßigen Zeilenendzeichen des Betriebssystems des Servers unterscheidet. Wenn in der Datei beispielsweise ein Windows-Zeilenendzeichen verwendet wird, der Server aber auf Linux läuft, aktivieren Sie diese Option nicht. Wählen Sie stattdessen im Feld Datensatz-Trennzeichen die Option „Windows“ aus.

Erste Zeile ist Kopfzeilen-Datensatz

Gibt an, ob der erste Datensatz in einer Datei mit Begrenzungszeichen Überschriften und keine Daten enthält.

Im folgenden Dateiausschnitt ist der erste Datensatz ein Kopfzeilen-Datensatz.

"AddressLine1"|"City"|"StateProvince"|"PostalCode"
"7200 13TH ST"|"MIAMI"|"FL"|"33144"
"One Global View"|"Troy"|"NY"|12180
Ausgabe

Gibt den Pfad zur Ausgabedatei auf dem Spectrum™ Technology Platform-Server an. Klicken Sie auf die Ellipsenschaltfläche (...), um zum Ausgabeverzeichnis und zum gewünschten Dateinamen zu navigieren.

Achtung: Falls der Spectrum™ Technology Platform-Server unter Unix oder Linux ausgeführt wird, berücksichtigen Sie, dass bei Dateinamen und Pfaden auf diesen Plattformen die Groß-/Kleinschreibung beachtet wird.
Überschreiben Zeigt an, dass die Ausgabedatei überschrieben werden muss, wenn eine Datei mit demselben Namen wie im Feld Ausgabe angegeben vorhanden ist.
Verketten Zeigt an, dass alle Spark-Teildateien zu einer einzelnen Ausgabedatei am Speicherort der angegebenen Ausgabe zusammengefügt werden müssen.
Vorschau Nachdem die Eingabedatei im Feld Dateiname ausgewählt wurde, werden im Raster Vorschau die ersten 100 Datensätze der vorhandenen Ausgabedatei angezeigt.

Um alle einzelnen Spaltenwerte korrekt anzuzeigen, klicken Sie auf der Registerkarte Felder auf Erneut generieren.

Registerkarte „Felder“

Die Registerkarte Felder definiert die Namen, Typen und Positionen der Felder in der Datei. Weitere Informationen finden Sie unter:

Registerkarte „Sortieren“

Die Registerkarte Sortieren definiert Felder, nach denen die Eingabedatensätze sortiert werden sollen, bevor sie in den Datenfluss gesendet werden. Weitere Informationen finden Sie unter Sortieren von Datensätzen.

Registerkarte „Konfiguration“

Um zusätzliche Eigenschaften für die Ausführung des erforderlichen Auftrags anzugeben, definieren Sie auf dieser Registerkarte so viele Eigenschaften-/Wertepaare wie erforderlich. Sie können die erforderlichen Eigenschaften direkt nacheinander im Raster hinzufügen.

Alternativ können Sie Eigenschaften aus einer Datei importieren, indem Sie auf Importieren klicken. Navigieren Sie zum Speicherort der jeweiligen Eigenschaftsdatei, und wählen Sie die Datei im XML-Format aus. Die in der importierten Datei enthaltenen Eigenschaften werden in das Raster kopiert. Die Eigenschaftsdatei muss im XML-Format vorliegen und dieser Syntax folgen:
<configuration>
    <property>
        <name>key</name>
        <value>some_value</value>
        <description>A brief description of the 
            purpose of the property key.</description>
    </property>
</configuration>
Anmerkung:
  1. Wenn dieselbe Eigenschaft dort und in der Management Console definiert wurde, überschreiben die dort definierten Werte die in der Management Console definierten Werte.
  2. Wenn dieselbe Eigenschaft im Raster und auch in der importierten Eigenschaftsdatei vorhanden ist, dann überschreibt der aus der Datei importierte Wert den im Raster für dieselbe Eigenschaft vorhandenen Wert.
  3. Sie können falls erforderlich mehrere Eigenschaftsdateien nacheinander importieren. Die in den einzelnen importierten Dateien enthaltenen Eigenschaften werden im Raster hinzugefügt.
  4. Stellen Sie sicher, dass die Eigenschaftsdatei auf dem Spectrum™ Technology Platform-Server vorhanden ist.
  5. Das Tag <description> ist für alle Eigenschaftsschlüssel in einer Konfigurationseigenschaftsdatei optional.
  6. Referenzdaten müssen lokal auf Datenknoten platziert werden, um die relevanten Aufträge auszuführen. Diese Eigenschaft ist nur für Aufträge verfügbar, die Referenzdaten verwenden, z. B. Advanced Transformer, Validate Address Global und Validate Address. Die Eigenschaft ist: pb.bdq.reference.data.location.

Registerkarte „Laufzeit“

Feldname Beschreibung

Dateiname

Zeigt den auf der ersten Registerkarte ausgewählten Dateinamen an.

Startdatensatz

Wenn Sie beim Einlesen der Datensätze in den Datenfluss Datensätze am Anfang der Datei überspringen möchten, geben Sie hier den ersten Datensatz an, der gelesen werden soll. Wenn Sie beispielsweise die ersten 50 Datensätze in einer Datei überspringen möchten, geben Sie 51 ein. Der 51. Datensatz ist dann der erste Datensatz, der in den Datenfluss eingelesen wird.

Alle Datensätze

Wählen Sie diese Option aus, wenn Sie alle Datensätze ab dem im Feld Startdatensatz definierten Datensatz bis zum Ende der Datei einlesen möchten.

Max. Anzahl Datensätze

Wählen Sie diese Option aus, wenn Sie nur eine bestimmte Anzahl von Datensätzen ab dem im Feld Startdatensatz angegebenen Datensatz einlesen möchten. Wenn Sie beispielsweise die ersten 100 Datensätze einlesen möchten, wählen Sie diese Option aus und geben Sie 100 an.