Definieren von Feldern zum Lesen aus einer Hive-Datei

Auf der Registerkarte Felder des Schrittes Read from Hive File werden die Schemanamen, Datentypen, Positionen und angegebene Namen der Felder in der Datei aufgelistet.

  1. Klicken Sie auf Erneut generieren.
    Bei ORC-, Avro- und Parquet-Dateien wird dann das Schema basierend auf den Metadaten der vorhandenen Datei generiert. Bei RC-Dateien werden alle Felder, die vor dem Klicken auf Vorschau hinzugefügt wurden, geleert.

    Im Grid werden die Spalten Name, Typ, Schrittfeld und Einschließen angezeigt.

    In der Spalte Name wird der Feldname angezeigt, wie er aus dem Header-Datensatz der Datei abgeleitet wurde.

    In der Spalte Typ werden die Datentypen der jeweiligen Felder der Datei aufgelistet.

    Der Schritt unterstützt die folgenden Datentypen:

    boolean
    Ein logischer Typ mit zwei Werten: wahr und falsch.
    date
    Ein Datentyp, der einen Monat, einen Tag und ein Jahr enthält. Beispiel: 2012-01-30 oder 30. Januar 2012. Sie können ein standardmäßiges Datumsformat in der Management Console angeben.
    datetime
    Ein Datentyp, der Tag, Monat, Jahr und Stunden, Minuten und Sekunden enthält.

    Beispiel: 30.01.2012 18:15:00.

    Anmerkung: Der Datentyp datetime in Spectrum richtet sich nach dem Datentyp timestamp von Hive-Dateien.
    double
    Ein numerischer Datentyp, der sowohl negative als auch positive Zahlen mit doppelter Genauigkeit zwischen 2-1074 und (2-2-52)×21023 enthält. In der E-Notation liegt der Wertebereich bei -1,79769313486232E+308 bis 1,79769313486232E+308.
    bigdecimal
    Ein numerischer Datentyp, der eine Genauigkeit von 38 Dezimalstellen unterstützt. Verwenden Sie diesen Datentyp für Daten in mathematischen Berechnungen, die einen hohen Grad von Genauigkeit erfordern, speziell solche mit Finanzdaten. Der Datentyp „bigdecimal“ unterstützt genauere Berechnungen als der Datentyp „double“.
    Anmerkung: Bei RC-, Avro- und Parquet Hive-Dateien werden Felder vom Datentyp decimal in der Eingabedatei in den Datentyp bigdecimal konvertiert.
    long
    Ein numerischer Datentyp, der sowohl negative als auch positive ganze Zahlen zwischen -263 (-9.223.372.036.854.775.808) und 263-1 (9.223.372.036.854.775.807) enthält.
    Anmerkung: Der Datentyp long in Spectrum richtet sich nach dem Datentyp bigint von Hive-Dateien.
    integer
    Ein numerischer Datentyp, der sowohl positive als auch negative ganze Zahlen zwischen -231 (-2,147,483,648) und 231-1 (2,147,483,647) enthält.
    float
    Ein numerischer Datentyp, der sowohl negative als auch positive Zahlen mit einzelner Genauigkeit zwischen 2-149 und (2-223)×2127 enthält. In der E-Notation liegt der Wertebereich bei -3,402823E+38 bis 3,402823E+38.
    string
    Eine Folge von Zeichen.
    Anmerkung: Bei RC-Dateien werden der Datentyp smallint und komplexe Datentypen nicht unterstützt.
    In der Spalte Position wird die Startposition des jeweiligen Feldes innerhalb eines Datensatzes angezeigt.
  2. Ändern Sie in der Spalte Schrittfeld für jedes Feld den vorhandenen Feldnamen in den gewünschten Namen.
    Standardmäßig werden in dieser Spalte die Feldnamen angezeigt, die aus der Datei gelesen wurden.
  3. Aktivieren Sie in der Spalte Einschließen die Kästchen der Felder, die Sie in der Ausgabe des Schrittes einschließen möchten.
    Standardmäßig sind alle Felder in dieser Spalte ausgewählt.
  4. Bei RC-Dateien können Sie über die folgenden Schaltflächen Felder hinzufügen und entfernen und die Reihenfolge der ausgewählten Spalten in der Ausgabe ändern:

    Name der Option

    Beschreibung

    Hinzufügen

    Fügt der Ausgabe ein Feld hinzu.

    Ändern

    Ändert den Namen und Datentyp des Feldes.

    Entfernen

    Entfernt das ausgewählte Feld aus der Ausgabe.

    Nach oben/Nach unten

    Ordnet die Position des ausgewählten Feldes in der Ausgabe neu an.

    Anmerkung: Dieses Feature ist nur bei RC-Dateien verfügbar.
  5. Klicken Sie auf OK.