Read from Hadoop Sequence File
Der Schritt Read from Hadoop Sequence File liest Daten aus einer Sequenzdatei als Eingabe für einen Datenfluss. Eine Sequenzdatei ist ein Flatfile, das aus binären Schlüssel/Wert-Paaren besteht. Weitere Informationen finden Sie unter wiki.apache.org/hadoop/SequenceFile.
- Verbinden mit Hadoop: Um eine auf dem Hadoop-System befindliche Datei lesen oder darin schreiben zu können, müssen Sie eine Verbindung zum Hadoop-Dateiserver herstellen. Sobald Sie dies tun, wird der Name, unter dem Sie die Verbindung speichern, als Servername angezeigt.
Registerkarte „Dateieigenschaften“
Felder | Beschreibung |
---|---|
Server | Dies gibt an, dass die im Feld Dateiname ausgewählte Datei sich auf dem Hadoop-System befindet. Anmerkung: Sie müssen eine Verbindung zum Hadoop-Dateiserver herstellen, bevor Sie sie hier verwenden können. Weitere Informationen zum Herstellen einer Verbindung finden Sie unter Verbinden mit Hadoop. Wenn Sie eine Datei auf dem Hadoop-System auswählen, ist der Servername der Name, den Sie beim Erstellen eines Dateiservers angegeben haben. |
Dateiname | Gibt den Pfad zur Datei an. Klicken Sie auf die Ellipsenschaltfläche (...), um die gewünschte Datei zu lokalisieren. |
Feldtrennzeichen |
Gibt das Zeichen an, das zum Trennen von Feldern in einer Datei mit Begrenzungszeichen verwendet wird. Im folgenden Beispiel wird ein Pipe-Zeichen ( | ) im Datensatz als Feldtrennzeichen verwendet:
Die folgenden Zeichen stehen zur Definition als Feldtrennzeichen zur Verfügung:
Wenn in der Datei ein anderes Zeichen als Feldtrennzeichen verwendet wird, klicken Sie auf die Ellipsenschaltfläche, um ein anderes Zeichen als Begrenzungszeichen auszuwählen. |
Textbegrenzungszeichen |
Dies ist das Zeichen, das in einer Datei mit Begrenzungszeichen Textwerte umschließt. Im folgenden Beispiel werden im Datensatz doppelte Anführungszeichen (") als Textbegrenzungszeichen verwendet.
Die folgenden Zeichen stehen zur Definition als Textbegrenzungszeichen zur Verfügung:
Wenn in der Datei ein anderes Textbegrenzungszeichen verwendet wird, klicken Sie auf die Ellipsenschaltfläche, um ein anderes Zeichen als Textbegrenzungszeichen auszuwählen. |
Registerkarte „Felder“
Die Registerkarte „Felder“ definiert die Namen, Positionen und Typen der Felder in der Datei. Weitere Informationen finden Sie unter Definieren von Feldern in einer Eingabesequenzdatei.
Registerkarte „Sortierfelder“
Die Registerkarte „Sortierfelder“ definiert Felder, nach denen die Eingabedatensätze sortiert werden sollen, bevor sie in den Datenfluss gesendet werden. Die Sortierung ist optional. Weitere Informationen finden Sie unter Sortieren von Eingabedatensätzen.
Registerkarte „Filter“
Die Registerkarte „Filter“ definiert Felder, nach denen die Eingabedatensätze gefiltert werden sollen, bevor sie in den Datenfluss gesendet werden. Weitere Informationen finden Sie unter Filtern von Eingabedatensätzen.