Read from Hadoop Sequence File

Read from Hadoop Sequence File ステージでは、シーケンシャル ファイルからデータが入力としてデータフローに読み込まれます。シーケンシャル ファイルは、キー/値ペアで構成されるフラット ファイルです。詳細については、「https://netjs.blogspot.com/2018/06/how-read-and-write-sequencefile-hadoop.html」を参照してください。

注: Read from Hadoop Sequence File ステージは、Hadoop 分散ファイル システム (HDFS) 上にある区切り記号付きの未圧縮シーケンシャル ファイルのみをサポートします。
関連するタスク:

Hadoop への接続: Hadoop システム上にあるファイルを読み取ったり、Hadoop システム上のファイルに書き込むためには、Hadoop ファイル サーバーへの接続を作成する必要があります。それが済むと、その接続を保存するための名前がサーバー名として表示されます。

[ファイル プロパティ] タブ

フィールド 説明
サーバー [ファイル名] フィールドで指定したファイルが Hadoop システム上にあることを示します。
注: Hadoop ファイル サーバーにあるファイルを使用する前に、Hadoop ファイル サーバーへの接続を作成する必要があります。接続の作成の詳細については、Hadoop への接続を参照してください。
Hadoop システム上のファイルを選択すると、そのサーバー名が、ファイル サーバーの作成時に指定する名前になります。
ファイル名 ファイルへのパスを指定します。省略記号ボタン (...) をクリックし、目的のファイルを選択します。
フィールド区切り文字 区切り記号付きファイル内のフィールドを区切るのに使用する文字を指定します。例えば、次のレコードでは (|) 記号がフィールド区切り文字として使われています。
7200 13TH ST|MIAMI|FL|33144

フィールド区切り文字として定義できるのは次の文字です。

  • スペース
  • タブ
  • カンマ
  • ピリオド (.)
  • セミコロン
  • パイプ (|)

これ以外の文字がフィールド区切り文字として使われているファイルについては、省略記号ボタン (...) をクリックし、別の文字を区切り文字として選択してください。

Text qualifier

区切り記号付きファイル内のテキスト値を囲むのに使用する文字。

例えば、次のレコードでは二重引用符 (") がテキスト修飾子として使われています。

"7200 13TH ST"|"MIAMI"|"FL"|"33144"

テキスト修飾子として定義できるのは次の文字です。

  • 一重引用符 (')
  • 二重引用符 (")

これ以外の文字がテキスト修飾子として使われているファイルについては、省略記号ボタン (...) をクリックし、別の文字をテキスト修飾子として選択してください。

[フィールド] タブ

[フィールド] タブでは、ファイルの各フィールドの名前、位置、およびタイプを定義します。詳細については、「入力シーケンシャル ファイルのフィールドの定義」を参照してください。

[ソート フィールド] タブ

[ソート フィールド] タブでは、データフローに送出される前の入力レコードのソートに使うフィールドを定義します。ソートを行うかどうかはオプションです。詳細については、「入力レコードのソート」を参照してください。

[フィルタ] タブ

[フィールド] タブでは、データフローに送出される前の入力レコードのソートに使うフィールドを定義します。詳細については、「入力レコードをフィルタリング」を参照してください。