出力シーケンシャルファイルのフィールドの定義

Write to Hadoop Sequence File ステージで、[フィールド] タブに、ファイル内のフィールドの名前、位置、タイプを定義します。[ファイルプロパティ] タブで入力ファイルを定義したら、フィールドを定義できます。

入力データ、または既存のファイルから必要なフィールドを選択する場合は、[クイック追加] をクリックします。
1. 目的のフィールドを入力データから選択します。
2. [OK] をクリックします。
新しいフィールドを追加する場合は、[追加] をクリックします。
1. フィールドの [名前] を入力します。
2. フィールドの [タイプ] を選択します。このステージでは、以下のデータタイプがサポートされています。
  boolean
  
  true と false の 2 つの値を持つ論理タイプ。
  
  date
  
  月、日、年を含むデータタイプ。例: 2012-01-30、January 30, 2012。デフォルトの日付の形式は Management Console で指定できます。
  
  datetime
  
  月、日、年、時、分、秒を含むデータタイプ。例: 2012/01/30 6:15 PM。
  注: Parquet ファイルでは、datetime と time のデータタイプは String としてマッピングされます。RC ファイルでは、datetime データタイプは timestamp としてマッピングされます。
  
  double
  
  正と負の倍精度数を含む数値データタイプ。値の範囲は、2^-1074 ～ (2-2^-52)×2¹⁰²³。指数表記すると、値の範囲は、-1.79769313486232E+308 ～ 1.79769313486232E+308 となります。
  
  float
  
  正と負の単精度数を含む数値データタイプ。値の範囲は、2^-149 ～ (2-2²³)×2¹²⁷。指数表記すると、値の範囲は、-3.402823E+38 ～ 3.402823E+38 となります。
  
  integer
  
  正と負の整数を含む数値データタイプ。値の範囲は、-2³¹ (-2,147,483,648) ～ 2³¹-1 (2,147,483,647)。
  
  bigdecimal
  
  小数点以下 38 桁の精度をサポートする数値データタイプ。高い精度が必要な算術計算で使用されるデータ (特に金融データ) には、このデータタイプを使用してください。bigdecimal データタイプは、double データタイプより正確な計算をサポートします。
  注: RC、Avro、Parquet Hive ファイルに対し、bigdecimal データタイプは、有効桁数が 38 で小数点以下桁数が 10 の decimal データタイプに変換されます。
  
  long
  
  正と負の整数を含む数値データタイプ。値の範囲は、-2⁶³ (-9,223,372,036,854,775,808) ～ 2⁶³-1 (9,223,372,036,854,775,807)。
  注: RC ファイルでは、long データタイプは bigint データタイプとしてマッピングされます。
  
  string
  
  文字シーケンス。
3. [位置] フィールドで、レコード内のこのフィールドの位置を入力します。
  例えば、この入力ファイルで、AddressLine1 は位置 1、City は位置 2、StateProvince は位置 3、PostalCode は位置 4 です。
```
"AddressLine1"|"City"|"StateProvince"|"PostalCode"
"7200 13TH ST"|"MIAMI"|"FL"|"33144"
"One Global View"|"Troy"|"NY"|12180
```
既存ファイルを上書きする場合は、[再生成] をクリックして既存ファイルからスキーマを取得してから、それを変更します。
このステージへの入力データに含まれる最初の 50 件のレコードに基づいて、スキーマが生成されます。
フィールドの文字列の先頭と末尾から余分なスペース文字を削除するには、[空白をトリム] チェックボックスを選択します。
キーの生成について、次のいずれかのオプションを指定します。
自動生成

Hadoop クラスタによって、キーが自動生成されます。自動生成の場合、グリッド内のすべてのフィールドは値フィールドと見なされます。キーのデータタイプは long です。

ユーザ定義

デフォルトでは、グリッドの先頭のフィールドがキーフィールドとして選択されます。そのフィールドがキーフィールドであることを示すアイコンが表示されます。キーフィールドとして別のフィールドを選択することができます。

出力ファイルのフィールドを定義したら、フィールドのコンテンツとレイアウトを編集できます。

オプション名	説明
追加	フィールドを出力に追加します。現在のレイアウトの末尾にフィールドを追加できます。また、既存の位置にフィールドを挿入することもできます。その場合、残りのフィールドの位置は適宜調整されます。
変更	フィールドの名前とタイプを変更します。
削除	選択されたフィールドを出力から削除します。
上へ移動/下へ移動	選択されたフィールドの順序を変更します。

出力シーケンシャル ファイルのフィールドの定義

出力シーケンシャルファイルのフィールドの定義