Definieren von Feldern in einer Ausgabesequenzdatei

Im Schritt „Write to Hadoop Sequence File“ definiert die Registerkarte Felder die Namen, Positionen und Längen der Felder in der Datei. Nach Definieren einer Eingabedatei auf der Registerkarte Dateieigenschaften können Sie die Felder definieren.

  1. Um die gewünschten Felder der Eingabedaten oder eine vorhandene Datei auszuwählen, klicken Sie auf Schnell hinzufügen.
    1. Wählen Sie die jeweiligen Felder der Eingabedaten aus.
    2. Klicken Sie auf OK.
  2. Klicken Sie zum Hinzufügen neuer Felder auf Hinzufügen.
    1. Geben Sie den Namen des Feldes ein.
    2. Geben Sie den Typ des Feldes ein. Der Schritt unterstützt die folgenden Datentypen:
      boolean
      Ein logischer Typ mit zwei Werten: wahr und falsch.
      date
      Ein Datentyp, der einen Monat, einen Tag und ein Jahr enthält. Beispiel: 2012-01-30 oder 30. Januar 2012. Sie können ein standardmäßiges Datumsformat in der Management Console angeben.
      datetime
      Ein Datentyp, der Tag, Monat, Jahr und Stunden, Minuten und Sekunden enthält. Beispiel: 30.01.2012 18:15:00.
      Anmerkung: In Parquet-Dateien werden die Datentypen datetime und time als String zugeordnet. In RC-Dateien wird der Datentyp datetime als timestamp zugeordnet.
      double
      Ein numerischer Datentyp, der sowohl negative als auch positive Zahlen mit doppelter Genauigkeit zwischen 2-1074 und (2-2-52)×21023 enthält. In der E-Notation liegt der Wertebereich bei -1,79769313486232E+308 bis 1,79769313486232E+308.
      float
      Ein numerischer Datentyp, der sowohl negative als auch positive Zahlen mit einzelner Genauigkeit zwischen 2-149 und (2-223)×2127 enthält. In der E-Notation liegt der Wertebereich bei -3,402823E+38 bis 3,402823E+38.
      integer
      Ein numerischer Datentyp, der sowohl positive als auch negative ganze Zahlen zwischen -231 (-2,147,483,648) und 231-1 (2,147,483,647) enthält.
      bigdecimal
      Ein numerischer Datentyp, der eine Genauigkeit von 38 Dezimalstellen unterstützt. Verwenden Sie diesen Datentyp für Daten in mathematischen Berechnungen, die einen hohen Grad von Genauigkeit erfordern, speziell solche mit Finanzdaten. Der Datentyp „bigdecimal“ unterstützt genauere Berechnungen als der Datentyp „double“.
      Anmerkung: Für RC-, Avro- und Parquet-Hive-Dateien wird der Datentyp bigdecimal in den Datentyp decimal mit Genauigkeit 38 und Dezimalstellenzahl 10 konvertiert.
      long
      Ein numerischer Datentyp, der sowohl negative als auch positive ganze Zahlen zwischen -263 (-9.223.372.036.854.775.808) und 263-1 (9.223.372.036.854.775.807) enthält.
      Anmerkung: In RC-Dateien wird der Datentyp long als Datentyp bigint zugeordnet.
      string
      Eine Folge von Zeichen.
    3. Geben Sie in das Feld Position die Position dieses Feldes innerhalb des Datensatzes ein.

      Beispiel: In dieser Eingabedatei ist „AddressLine1“ an Position 1, „City“ an Position 2, „StateProvince“ an Position 3 und „PostalCode“ an Position 4.

      "AddressLine1"|"City"|"StateProvince"|"PostalCode"
      "7200 13TH ST"|"MIAMI"|"FL"|"33144"
      "One Global View"|"Troy"|"NY"|12180
  3. Wenn Sie eine vorhandene Datei überschreiben, klicken Sie auf Erneut generieren, um das Schema aus der vorhandenen Datei zu übernehmen, und ändern Sie es dann.
    Dadurch wird das Schema auf Basis der ersten 50 Datensätze in den Eingabedaten für diesen Schritt generiert.
  4. Wenn Sie überzählige Leerzeichen am Anfang und Ende der Zeichenfolge eines Feldes entfernen möchten, aktivieren Sie das Kästchen Leerzeichen abschneiden.
  5. Geben Sie eine der folgenden Optionen an, um den Schlüssel zu generieren:
    Automatisch generieren

    Das Hadoop-Cluster generiert den Schlüssel automatisch. Für „Automatisch generieren“ werden alle Felder im Grid als Wertfelder betrachtet. Der Datentyp des Schlüssels ist „Lang“.

    Benutzerdefiniert

    Standardmäßig wird das erste Feld im Grid als Schlüsselfeld ausgewählt. Ein Symbol wird angezeigt, um anzugeben, dass das betreffende Feld das Schlüsselfeld ist. Sie können auch ein beliebiges anderes Feld als Schlüsselfeld auswählen.

Nach Definieren der Felder in der Ausgabedatei können Sie ihren Inhalt und ihr Layout bearbeiten.

Name der Option

Beschreibung

Hinzufügen

Fügt der Ausgabe ein Feld hinzu. Sie können ein Feld am Ende des vorhandenen Layouts anfügen oder ein Feld an einer vorhandenen Position einfügen, wobei die Position der restlichen Felder dementsprechend angepasst wird.

Ändern

Ändert den Namen und Typ des Feldes.

Entfernen

Entfernt das ausgewählte Feld aus der Ausgabe.

Nach oben/Nach unten

Ordnet das ausgewählte Feld neu an.