Definieren von Feldern in einer Eingabesequenzdatei

Im Schritt „Read from Hadoop Sequence File“ definiert die Registerkarte Felder die Namen, Positionen und Längen der Felder in der Datei. Nach Definieren einer Eingabedatei auf der Registerkarte Dateieigenschaften können Sie die Felder definieren.

Wenn die Eingabedatei keinen Kopfzeilendatensatz enthält oder wenn Sie die Felder manuell definieren möchten, folgen Sie diesen Schritten auf der Registerkarte Felder:

  1. Klicken Sie auf Erneut generieren, um Felder zu definieren, die bereits in der Eingabedatei vorhanden sind. Klicken Sie dann auf Typ erkennen. Damit wird automatisch der Datentyp für jedes Feld basierend auf den ersten 50 Datensätzen in der Datei festgelegt.
  2. Klicken Sie auf Hinzufügen, um zusätzliche Felder in der Ausgabe hinzuzufügen.
  3. Wählen Sie im Feld Name das Feld aus, das Sie hinzufügen möchten, oder geben Sie den Namen in das Feld ein.
  4. Im Feld Typ können Sie den Datentyp „Zeichenfolge“ beibehalten, wenn Sie nicht vorhaben, mathematische Operationen auf die Daten anzuwenden. Wenn Sie allerdings diese Operationsarten anwenden möchten, wählen Sie einen entsprechenden Datentyp aus. Dann werden die Zeichenfolgendaten aus der Datei in einen Datentyp konvertiert, der die korrekte Manipulation der Daten im Datenfluss ermöglicht.
    Der Schritt unterstützt die folgenden Datentypen:
    double
    Ein numerischer Datentyp, der sowohl negative als auch positive Zahlen mit doppelter Genauigkeit zwischen 2-1074 und (2-2-52)×21023 enthält. In der E-Notation liegt der Wertebereich bei -1,79769313486232E+308 bis 1,79769313486232E+308.
    float
    Ein numerischer Datentyp, der sowohl negative als auch positive Zahlen mit einzelner Genauigkeit zwischen 2-149 und (2-223)×2127 enthält. In der E-Notation liegt der Wertebereich bei -3,402823E+38 bis 3,402823E+38.
    integer
    Ein numerischer Datentyp, der sowohl positive als auch negative ganze Zahlen zwischen -231 (-2,147,483,648) und 231-1 (2,147,483,647) enthält.
    long
    Ein numerischer Datentyp, der sowohl negative als auch positive ganze Zahlen zwischen -263 (-9.223.372.036.854.775.808) und 263-1 (9.223.372.036.854.775.807) enthält.
    string
    Eine Folge von Zeichen.
  5. Geben Sie in das Feld Position die Position dieses Feldes innerhalb des Datensatzes ein.

    Beispiel: In dieser Eingabedatei ist „AddressLine1“ an Position 1, „City“ an Position 2, „StateProvince“ an Position 3 und „PostalCode“ an Position 4.

    "AddressLine1"|"City"|"StateProvince"|"PostalCode"
    "7200 13TH ST"|"MIAMI"|"FL"|"33144"
    "One Global View"|"Troy"|"NY"|12180
  6. Wenn Sie überzählige Leerzeichen am Anfang und Ende der Wertezeichenfolge eines Feldes entfernen möchten, aktivieren Sie das Kästchen Kürzen.