Definieren von Feldern zum Lesen aus einer Hive-Datei
Auf der Registerkarte Felder des Schrittes Read from Hive File werden die Schemanamen, Datentypen, Positionen und angegebene Namen der Felder in der Datei aufgelistet.
-
Klicken Sie auf Erneut generieren.
Bei ORC-, Avro- und Parquet-Dateien wird dann das Schema basierend auf den Metadaten der vorhandenen Datei generiert. Bei RC-Dateien werden alle Felder, die vor dem Klicken auf Vorschau hinzugefügt wurden, geleert.
Im Grid werden die Spalten Name, Typ, Schrittfeld und Einschließen angezeigt.
In der Spalte Name wird der Feldname angezeigt, wie er aus dem Header-Datensatz der Datei abgeleitet wurde.
In der Spalte Typ werden die Datentypen der jeweiligen Felder der Datei aufgelistet.
Der Schritt unterstützt die folgenden Datentypen:
- boolean
- Ein logischer Typ mit zwei Werten: wahr und falsch.
- date
- Ein Datentyp, der einen Monat, einen Tag und ein Jahr enthält. Beispiel: 2012-01-30 oder 30. Januar 2012. Sie können ein standardmäßiges Datumsformat in der Management Console angeben.
- datetime
- Ein Datentyp, der Tag, Monat, Jahr und Stunden, Minuten und Sekunden enthält.
Beispiel: 30.01.2012 18:15:00.
Anmerkung: Der Datentypdatetime
in Spectrum richtet sich nach dem Datentyptimestamp
von Hive-Dateien. - double
- Ein numerischer Datentyp, der sowohl negative als auch positive Zahlen mit doppelter Genauigkeit zwischen 2-1074 und (2-2-52)×21023 enthält. In der E-Notation liegt der Wertebereich bei -1,79769313486232E+308 bis 1,79769313486232E+308.
- bigdecimal
- Ein numerischer Datentyp, der eine Genauigkeit von 38 Dezimalstellen unterstützt. Verwenden Sie diesen Datentyp für Daten in mathematischen Berechnungen, die einen hohen Grad von Genauigkeit erfordern, speziell solche mit Finanzdaten. Der Datentyp „bigdecimal“ unterstützt genauere Berechnungen als der Datentyp „double“.Anmerkung: Bei RC-, Avro- und Parquet Hive-Dateien werden Felder vom Datentyp
decimal
in der Eingabedatei in den Datentypbigdecimal
konvertiert. - long
- Ein numerischer Datentyp, der sowohl negative als auch positive ganze Zahlen zwischen -263 (-9.223.372.036.854.775.808) und 263-1 (9.223.372.036.854.775.807) enthält.Anmerkung: Der Datentyp
long
in Spectrum richtet sich nach dem Datentypbigint
von Hive-Dateien. - integer
- Ein numerischer Datentyp, der sowohl positive als auch negative ganze Zahlen zwischen -231 (-2,147,483,648) und 231-1 (2,147,483,647) enthält.
- float
- Ein numerischer Datentyp, der sowohl negative als auch positive Zahlen mit einzelner Genauigkeit zwischen 2-149 und (2-223)×2127 enthält. In der E-Notation liegt der Wertebereich bei -3,402823E+38 bis 3,402823E+38.
- string
- Eine Folge von Zeichen.
Anmerkung: Bei RC-Dateien werden der DatentypIn der Spalte Position wird die Startposition des jeweiligen Feldes innerhalb eines Datensatzes angezeigt.smallint
und komplexe Datentypen nicht unterstützt. -
Ändern Sie in der Spalte Schrittfeld für jedes Feld den vorhandenen Feldnamen in den gewünschten Namen.
Standardmäßig werden in dieser Spalte die Feldnamen angezeigt, die aus der Datei gelesen wurden.
-
Aktivieren Sie in der Spalte Einschließen die Kästchen der Felder, die Sie in der Ausgabe des Schrittes einschließen möchten.
Standardmäßig sind alle Felder in dieser Spalte ausgewählt.
-
Bei RC-Dateien können Sie über die folgenden Schaltflächen Felder hinzufügen und entfernen und die Reihenfolge der ausgewählten Spalten in der Ausgabe ändern:
Name der Option
Beschreibung
Hinzufügen
Fügt der Ausgabe ein Feld hinzu.
Ändern
Ändert den Namen und Datentyp des Feldes.
Entfernen
Entfernt das ausgewählte Feld aus der Ausgabe.
Nach oben/Nach unten
Ordnet die Position des ausgewählten Feldes in der Ausgabe neu an.
Anmerkung: Dieses Feature ist nur bei RC-Dateien verfügbar. - Klicken Sie auf OK.