Im Schritt „Write to Hadoop Sequence File“ definiert die Registerkarte Felder die Namen, Positionen und Längen der Felder in der Datei. Nach Definieren einer Eingabedatei auf der Registerkarte Dateieigenschaften können Sie die Felder definieren.
-
Um die gewünschten Felder der Eingabedaten oder eine vorhandene Datei auszuwählen, klicken Sie auf Schnell hinzufügen.
-
Wählen Sie die jeweiligen Felder der Eingabedaten aus.
-
Klicken Sie auf OK.
-
Klicken Sie zum Hinzufügen neuer Felder auf Hinzufügen.
-
Geben Sie den Namen des Feldes ein.
-
Geben Sie den Typ des Feldes ein. Der Schritt unterstützt die folgenden Datentypen:
- boolean
- Ein logischer Typ mit zwei Werten: wahr und falsch.
- date
- Ein Datentyp, der einen Monat, einen Tag und ein Jahr enthält. Beispiel: 2012-01-30 oder 30. Januar 2012. Sie können ein standardmäßiges Datumsformat in der Management Console angeben.
- datetime
- Ein Datentyp, der Tag, Monat, Jahr und Stunden, Minuten und Sekunden enthält. Beispiel: 30.01.2012 18:15:00.
Anmerkung: In Parquet-Dateien werden die Datentypen datetime
und time
als String
zugeordnet. In RC-Dateien wird der Datentyp datetime
als timestamp
zugeordnet.
- double
- Ein numerischer Datentyp, der sowohl negative als auch positive Zahlen mit doppelter Genauigkeit zwischen 2-1074 und (2-2-52)×21023 enthält. In der E-Notation liegt der Wertebereich bei -1,79769313486232E+308 bis 1,79769313486232E+308.
- float
- Ein numerischer Datentyp, der sowohl negative als auch positive Zahlen mit einzelner Genauigkeit zwischen 2-149 und (2-223)×2127 enthält. In der E-Notation liegt der Wertebereich bei -3,402823E+38 bis 3,402823E+38.
- integer
- Ein numerischer Datentyp, der sowohl positive als auch negative ganze Zahlen zwischen -231 (-2,147,483,648) und 231-1 (2,147,483,647) enthält.
- bigdecimal
- Ein numerischer Datentyp, der eine Genauigkeit von 38 Dezimalstellen unterstützt. Verwenden Sie diesen Datentyp für Daten in mathematischen Berechnungen, die einen hohen Grad von Genauigkeit erfordern, speziell solche mit Finanzdaten. Der Datentyp „bigdecimal“ unterstützt genauere Berechnungen als der Datentyp „double“.
Anmerkung: Für RC-, Avro- und Parquet-Hive-Dateien wird der Datentyp bigdecimal
in den Datentyp decimal
mit Genauigkeit 38 und Dezimalstellenzahl 10 konvertiert.
- long
- Ein numerischer Datentyp, der sowohl negative als auch positive ganze Zahlen zwischen -263 (-9.223.372.036.854.775.808) und 263-1 (9.223.372.036.854.775.807) enthält.
Anmerkung: In RC-Dateien wird der Datentyp long
als Datentyp bigint
zugeordnet.
- string
- Eine Folge von Zeichen.
-
Geben Sie in das Feld Position die Position dieses Feldes innerhalb des Datensatzes ein.
Beispiel: In dieser Eingabedatei ist „AddressLine1“ an Position 1, „City“ an Position 2, „StateProvince“ an Position 3 und „PostalCode“ an Position 4.
"AddressLine1"|"City"|"StateProvince"|"PostalCode"
"7200 13TH ST"|"MIAMI"|"FL"|"33144"
"One Global View"|"Troy"|"NY"|12180
-
Wenn Sie eine vorhandene Datei überschreiben, klicken Sie auf Erneut generieren, um das Schema aus der vorhandenen Datei zu übernehmen, und ändern Sie es dann.
Dadurch wird das Schema auf Basis der ersten 50 Datensätze in den Eingabedaten für diesen Schritt generiert.
-
Wenn Sie überzählige Leerzeichen am Anfang und Ende der Zeichenfolge eines Feldes entfernen möchten, aktivieren Sie das Kästchen Leerzeichen abschneiden.
-
Geben Sie eine der folgenden Optionen an, um den Schlüssel zu generieren:
- Automatisch generieren
-
Das Hadoop-Cluster generiert den Schlüssel automatisch. Für „Automatisch generieren“ werden alle Felder im Grid als Wertfelder betrachtet. Der Datentyp des Schlüssels ist „Lang“.
- Benutzerdefiniert
-
Standardmäßig wird das erste Feld im Grid als Schlüsselfeld ausgewählt. Ein Symbol wird angezeigt, um anzugeben, dass das betreffende Feld das Schlüsselfeld ist. Sie können auch ein beliebiges anderes Feld als Schlüsselfeld auswählen.
Nach Definieren der Felder in der Ausgabedatei können Sie ihren Inhalt und ihr Layout bearbeiten.
Name der Option
|
Beschreibung
|
Hinzufügen
|
Fügt der Ausgabe ein Feld hinzu. Sie können ein Feld am Ende des vorhandenen Layouts anfügen oder ein Feld an einer vorhandenen Position einfügen, wobei die Position der restlichen Felder dementsprechend angepasst wird.
|
Ändern
|
Ändert den Namen und Typ des Feldes.
|
Entfernen
|
Entfernt das ausgewählte Feld aus der Ausgabe.
|
Nach oben/Nach unten
|
Ordnet das ausgewählte Feld neu an.
|