Read From File

Read from File ステージでは、ジョブまたはサブフローの入力ファイルを指定します。これをサービスで使うことはできません。

注: データフローの入力として XML ファイルを使いたい場合は、Read from File ではなく Read from XML ステージを使用してください。入力として可変フォーマット ファイルを使いたい場合は、Read from Variable Format File を使用してください。
前提条件: ファイル システム接続タイプ (FTP、クラウド、Amazon AWS S3、HDFS など) からファイルを読み込むには、以下の手順を実行します。
  1. Management Console または Metadata Insights を用いてこれらのファイル サーバーへの接続を作成します。詳細については、「接続の定義」セクションを参照してください。
  2. [ファイル プロパティ] タブの [ファイル名] フィールドを使用してファイルを選択します (以下を参照)。

[ファイル プロパティ] タブ

フィールド名 説明
サーバ名 入力として選択したファイルが Enterprise Designer を実行しているコンピュータ上にあるか、Spectrum™ Technology Platform サーバー上にあるかを示します。ローカル コンピュータ上のファイルを選択した場合、サーバー名はマイ コンピュータになります。サーバー上のファイルを選択した場合、サーバー名は Spectrum™ Technology Platform になります。
ファイル名 ファイルへのパスを指定します。省略記号ボタン (...) をクリックし、目的のファイルを選択します。

ワイルド カード文字を使用して、ディレクトリ内の複数のファイルからデータを読み込むことができます。サポートされているワイルド カード文字は、* と ? です。例えば、*.csv と指定して、ディレクトリ内にある、拡張子が .csv のファイルをすべて読み込むことができます。複数のファイルを正常に読み込むには、各ファイルが同じレイアウト (同じ位置に同じフィールド) を持つ必要があります。[フィールド] タブで指定したレイアウトに一致しないレコードは、形式に誤りのあるレコードとして扱われます。

HDFS ファイル サーバーからのファイルの読み込みでサポートされる圧縮形式を次に示します。

  1. GZIP (.gz)
  2. BZIP2 (.bz2)
注: ファイルの拡張子は、そのファイルの解凍に使用される圧縮形式を示します。
重要: なお、Spectrum™ Technology Platform サーバーを実行しているプラットフォームが Unix または Linux の場合、これらのプラットフォームでファイル名およびパスの大文字と小文字が区別されることに注意してください。
レコード タイプ ファイル内のレコードのフォーマット。次のいずれかを選択します。
行順次
ファイル内の各レコードが復帰または改行 (CR または LF) などの行末 (EOL) 文字で区切られ、レコード内の各フィールドの開始文字位置と終了文字位置が固定しているテキスト ファイル。
固定長
ファイル内の各レコードの長さ (文字数) が一定で、レコード内の各フィールドの開始文字位置と終了文字位置が固定しているテキスト ファイル。
区切り記号付き
ファイル内の各レコードが復帰または改行 (CR または LF) などの行末 (EOL) 文字で区切られ、レコード内の各フィールドがカンマ (,) などの特定の文字で区切られているテキスト ファイル。
文字エンコーディング テキスト ファイルのエンコーディング。次のいずれかを選択します。
CP1252
このエンコーディングは Windows-1252 文字セット、または単純に Windows 文字セットとも呼ばれています。これは ISO-8859-1 の上位クラスであり、128 ~ 159 のコード範囲を使用して、ISO-8859-1 文字セットに含まれていない追加の文字を表示します。
UTF-8
すべての Unicode 文字をサポートし、かつ ASCII との下位互換性があります。UTF の詳細については、unicode.org/faq/utf_bom.html を参照してください。
UTF-16
すべての Unicode 文字をサポートします。しかし、ASCII との下位互換性はありません。UTF の詳細については、unicode.org/faq/utf_bom.html を参照してください。
US-ASCII
英語のアルファベット順に従う文字エンコーディング。
UTF-16BE
ビッグエンディアン UTF-16 エンコーディング (下位アドレスが上位バイトとなるようにシリアル化)。
UTF-16LE
リトルエンディアン UTF-16 エンコーディング (下位アドレスが下位バイトとなるようにシリアル化)。
ISO-8859-1
主として西ヨーロッパの言語で使われる ASCII 文字エンコーディング。Latin-1 とも呼ばれます。
ISO-8859-3
主として南ヨーロッパの言語で使われる ASCII 文字エンコーディング。Latin-3 とも呼ばれます。
ISO-8859-9
主としてトルコ語で使われる ASCII 文字エンコーディング。Latin-5 とも呼ばれます。
CP850
西ヨーロッパの言語を書くための ASCII コード ページ。
CP500
西ヨーロッパの言語を書くための EBCDIC コード ページ。
Shift_JIS
日本語のための文字エンコーディング。
MS932
NEC 特殊文字、NEC 選定 IBM 拡張文字、IBM 拡張文字を含めた Microsoft の拡張版 Shift_JIS 文字コード。
CP1047
Latin-1 文字セット全体を含む EBCDIC コード ページ。
フィールド区切り文字 区切り記号付きファイル内のフィールドを区切るのに使用する文字を指定します。例えば、次のレコードでは (|) 記号がフィールド区切り文字として使われています。
7200 13TH ST|MIAMI|FL|33144

フィールド区切り文字として定義できるのは次の文字です。

  • スペース
  • タブ
  • カンマ
  • ピリオド (.)
  • セミコロン
  • パイプ (|)

これ以外の文字がフィールド区切り文字として使われているファイルについては、省略記号ボタン (...) をクリックし、別の文字を区切り文字として選択してください。

Text qualifier

区切り記号付きファイル内のテキスト値を囲むのに使用する文字。

例えば、次のレコードでは二重引用符 (") がテキスト修飾子として使われています。

"7200 13TH ST"|"MIAMI"|"FL"|"33144"

テキスト修飾子として定義できるのは次の文字です。

  • 一重引用符 (')
  • 二重引用符 (")

これ以外の文字がテキスト修飾子として使われているファイルについては、省略記号ボタン (...) をクリックし、別の文字をテキスト修飾子として選択してください。

レコード区切り文字

順次ファイルまたは区切り記号付きファイル内のレコードを区切るのに使用する文字を指定します。[デフォルトの EOL を使用] チェック ボックスをオンにすると、このフィールドは使用できません。

使用できるレコード区切り文字の設定は次のとおりです。

Unix (U+000A)
改行 (LF) 文字でレコードを区切ります。これは Unix システムの標準のレコード区切り文字です。
Macintosh (U+000D)
復帰 (CR) 文字でレコードを区切ります。これは Macintosh システムの標準のレコード区切り文字です。
Windows (U+000D U+000A)
復帰改行 (CR+LF) でレコードを区切ります。これは Windows システムの標準のレコード区切り文字です。

これ以外の文字がレコード区切り文字として使われているファイルについては、省略記号ボタン (...) をクリックし、別の文字をレコード区切り文字として選択してください。

デフォルトの EOL を使用

Spectrum™ Technology Platform サーバーが実行されているオペレーティング システムのデフォルトの行末 (EOL) 文字をファイルのレコード区切り文字として使用します。

ファイルの EOL 文字がサーバーのオペレーティング システムで使われているデフォルトの EOL 文字と異なる場合は、このオプションをオンにしないでください。例えば、ファイルで Windows の EOL が使われていて、サーバーの動作プラットフォームが Linux の場合は、このオプションをオンにしないでください。代わりに、[レコード区切り文字] フィールドで [Windows] オプションを選択します。

レコード長

固定長ファイルでは、個々のレコードの文字数を指定します。

行順次ファイルでは、ファイル内の最も長いレコードの長さ (文字数) を指定します。

最初の行はヘッダ レコード

区切り記号付きファイルの先頭レコードの内容がデータではなくヘッダ情報であるかどうかを指定します。

次のファイル スニペットは、先頭レコードのヘッダー行の例です。

"AddressLine1"|"City"|"StateProvince"|"PostalCode"
"7200 13TH ST"|"MIAMI"|"FL"|"33144"
"One Global View"|"Troy"|"NY"|12180
フィールド数が定義よりも少ないレコードを、形式誤りとみなす

区切り記号付きファイルのレコードのうち、[フィールド] タブに定義されている数よりもフィールド数が少ないレコードを形式に誤りのあるレコードとみなします。

インポート

ファイル レイアウト定義、エンコーディング設定、およびソート オプションを設定ファイルからインポートします。設定ファイルは、同じ入力ファイル、あるいは操作しているファイルと同じレイアウトを持つファイルを使用した、別の Read from File ステージまたは Write to File ステージから設定をエクスポートすることによって作成されます。

エクスポート

ファイル レイアウト定義、エンコーディング設定、およびソート オプションを設定ファイルに保存します。その後、同じ入力ファイル、または現在操作しているファイルと同じ特性を持つファイルを使用する他の Read from File ステージまたは Write to File ステージにこれらの設定をインポートできます。Job Executor で設定ファイルを使用して、実行時にファイル設定を指定することもできます。

設定ファイルの詳細については、ファイル定義設定ファイルを参照してください。

[フィールド] タブ

[フィールド] タブでは、ファイル内の各フィールドの名前と位置を定義します。また、固定長ファイルと行順次ファイルについては、さらにフィールドの長さを定義します。詳細については、以下を参照してください。

[ソート フィールド] タブ

[ソート フィールド] タブでは、データフローに送出される前の入力レコードのソートに使うフィールドを定義します。ソートを行うかどうかはオプションです。詳細については、「入力レコードのソート」を参照してください。

[実行時] タブ

フィールド名 説明
ファイル名

最初のタブで選択したファイル名が表示されます。

開始レコード

レコードをデータフローに読み込むときファイルの先頭部分にあるレコードをスキップしたければ、読み込みたい最初のレコードを指定します。例えば、最初の 50 個のレコードをスキップする場合は 51 と指定します。これで 51 番目のレコードがデータフローに読み込まれる最初のレコードとなります。

すべてのレコード

[開始レコード] フィールドで指定したレコードからファイルの最後までのレコードをすべて読み込む場合は、このオプションをオンにします。

最大レコード数

[開始レコード] フィールドで指定したレコードを起点にそこから一定の数のレコードを読み込む場合は、このオプションをオンにします。例えば、最初の 100 個のレコードを読み込みたい場合は、このオプションをオンにして 100 と入力します。