フラット ファイルからのデータの追加
-
Web ブラウザで、次の場所に移動します。
http://server:port/metadata-insights
ここで server は、Spectrum™ Technology Platform サーバーの名前または IP アドレスで、port は HTTP ポートです。デフォルトの HTTP ポートは 8080 です。
- 自分の資格情報でログインします。
- [ホーム] ページで [プロファイリング] をクリックします。
-
[プロファイルの追加] ボタン をクリックします。
[プロファイルの追加] ページに、プロファイル作成の 3 つのステージである [ソースを選択] > [プロファイルの設定] > [終了]を示すウィザードが表示されます。
-
[データ ソースの選択] オプションで、[フラット ファイル] オプションを選択し、[ファイルの追加] ボタンをクリックします。
[ファイルを選択] ポップアップ ウィンドウが表示されます。
-
ファイル パス選択ボックス を使用して、ファイルが置かれているローカル マシンまたはサーバーのパスに移動します。
ファイル パス選択ボックスの下にファイルのリストが表示されます。先行入力機能付きの [フィルタ] テキスト ボックスを使用して、必要なファイルだけをリストからフィルタできます。
-
プロファイルの作成に必要なすべてのファイルを選択し、[OK] をクリックします。
選択したファイルがページの左側、[ファイルの追加] ボタンの下に表示されます。
-
さらにファイルを追加するには、[ファイルの追加] ボタンをもう一度クリックし、手順 6 および 7 を繰り返します。
注: ローカル システム上、サーバー上、および FTP サーバーのさまざまなフォルダから、任意の組み合わせでファイルを追加できます。FTP サーバーを使用する場合は、Management Console を使用して FTP サーバーを設定する必要があります。詳細については、『管理ガイド』を参照してください。
-
リスト内の任意のファイルをクリックすると、以下の詳細が表示されます。
- 選択されているファイルの数。例: 選択したファイル: 7
- ファイルのメタデータのカラー コード設定
- 緑: メタデータが自動検出された
- 青: ユーザによって設定されたメタデータ
- 赤: メタデータが検出されなかった。このようなファイルはプロファイリング時にスキップされます。ただし、このタスクの下記の説明にあるように、[ファイル設定] フィールドを使用してこうしたファイルのメタデータを設定できます。手動設定の後、これらのファイルの表示は青色になります。
- ファイルのパス。例: E:/Sample Files/profile/fileOne.txt
- ファイル設定
- ファイル内のレコードのプレビュー
-
ファイルのいずれかの設定を変更するには、そのファイルを選択し、このテーブルの説明どおりに変更を加えます。
設定 説明 文字エンコーディング テキスト ファイルのエンコーディング。次のいずれかを選択します。 - CP1252
- このエンコーディングは Windows-1252 文字セット、または単純に Windows 文字セットとも呼ばれています。これは ISO-8859-1 の上位クラスであり、128 ~ 159 のコード範囲を使用して、ISO-8859-1 文字セットに含まれていない追加の文字を表示します。
- UTF-8
- すべての Unicode 文字をサポートし、かつ ASCII との下位互換性があります。UTF の詳細については、unicode.org/faq/utf_bom.html を参照してください。
- UTF-16
- すべての Unicode 文字をサポートします。しかし、ASCII との下位互換性はありません。UTF の詳細については、unicode.org/faq/utf_bom.html を参照してください。
- US-ASCII
- 英語のアルファベット順に従う文字エンコーディング。
- UTF-16BE
- ビッグエンディアン UTF-16 エンコーディング (下位アドレスが上位バイトとなるようにシリアル化)。
- UTF-16LE
- リトルエンディアン UTF-16 エンコーディング (下位アドレスが下位バイトとなるようにシリアル化)。
- ISO-8859-1
- 主として西ヨーロッパの言語で使われる ASCII 文字エンコーディング。Latin-1 とも呼ばれます。
- ISO-8859-3
- 主として南ヨーロッパの言語で使われる ASCII 文字エンコーディング。Latin-3 とも呼ばれます。
- ISO-8859-9
- 主としてトルコ語で使われる ASCII 文字エンコーディング。Latin-5 とも呼ばれます。
- CP850
- 西ヨーロッパの言語を書くための ASCII コード ページ。
- CP500
- 西ヨーロッパの言語を書くための EBCDIC コード ページ。
- Shift_JIS
- 日本語のための文字エンコーディング。
- MS932
- NEC 特殊文字、NEC 選定 IBM 拡張文字、IBM 拡張文字を含めた Microsoft の拡張版 Shift_JIS 文字コード。
- CP1047
- Latin-1 文字セット全体を含む EBCDIC コード ページ。
フィールド区切り文字 区切り記号付きファイル内のフィールドを区切るのに使用する文字を指定します。
例えば、次のレコードではパイプ (|) がフィールド区切り文字として使われています。
7200 13TH ST|MIAMI|FL|33144
フィールド区切り文字として使用可能な文字は次のとおりです。
- カンマ
- セミコロン
- パイプ (|)
- タブ
- スペース
- ピリオド (.)
Text qualifier 区切り記号付きファイル内のテキスト値を囲むのに使用する文字。
例えば、次のレコードでは二重引用符 (") がテキスト修飾子として使われています。
"7200 13TH ST"|"MIAMI"|"FL"|"33144"
テキスト修飾子として定義できるのは次の文字です。
- 一重引用符 (')
- 二重引用符 (")
これ以外の文字がテキスト修飾子として使われているファイルについては、省略記号ボタン (...) をクリックし、別の文字をテキスト修飾子として選択してください。
ライン区切り文字 順次ファイルまたは区切り記号付きファイル内のレコードを行で区切るのに使用する文字を指定します。 使用できるレコード区切り文字の設定は次のとおりです。
- Unix (U+000A)
- 改行 (LF) 文字でレコードを区切ります。これは Unix システムの標準のレコード区切り文字です。
- Macintosh (U+000D)
- 復帰 (CR) 文字でレコードを区切ります。これは Macintosh システムの標準のレコード区切り文字です。
- Windows (U+000D U+000A)
- 復帰改行 (CR+LF) でレコードを区切ります。これは Windows システムの標準のレコード区切り文字です。
先頭行をヘッダーにする 区切り記号付きファイルの先頭レコードの内容がヘッダー情報であるかどうかを指定します。[はい] はそれがヘッダー情報であることを示します。
次のファイル スニペットは、先頭レコードのヘッダー行の例です。
"AddressLine1"|"City"|"StateProvince"|"PostalCode" "7200 13TH ST"|"MIAMI"|"FL"|"33144" "One Global View"|"Troy"|"NY"|12180
-
あるファイルの設定を別のファイルに適用するには:
- 設定のコピー元となるファイルを選択し、[ファイル設定をコピー] ボタンをクリックします。
- 表示される [ファイル設定を適用] ポップアップ ウィンドウで、設定の適用先となるファイルを選択し、[OK] をクリックします。注: 選択したファイルにファイル設定が適用されます。
- 選択したファイルのプレビューは、[ファイル設定] の下にある [プレビュー] セクションで確認できます。
- 作成したプロファイルを設定するには、ページの右上隅にある をクリックします。