ソースからのファイルのアップロード

一致条件を生成するには、サンプル データをアップロードする必要があります。サンプル データは、マッチアンマッチ重複ユニーク各種フィールドについて視覚的に同じまたは異なるフィールドの両方など、数値的な多様性を持つすべてのデータを実際に表現したものでなければなりません。

以下に、ファイルのアップロード手順を示します。

  1. [ソースを選択] ページで、 アイコンをクリックしてデータ ファイルが置かれているパスに移動します。
  2. [OK] ボタンをクリックします。
    データ ファイルが [データ プレビュー] セクションにプレビュー表示されます。
  3. アップロードされたデータに従って、[文字エンコード][フィールド区切り文字][テキスト修飾子][ライン区切り文字] の各フィールドがあらかじめ設定されます。必要な場合、これらはユーザによって上書きされます (次の表を参照)。
    フィールド名 説明

    文字エンコーディング

    テキスト ファイルのエンコーディング。次のいずれかを選択します。

    テキスト ファイルのエンコーディング。次のいずれかを選択します。

    CP1252
    このエンコーディングは Windows-1252 文字セット、または単に Windows 文字セットとも呼ばれています。これは ISO-8859-1 の上位クラスであり、128 ~ 159 のコード範囲を使用して、ISO-8859-1 文字セットに含まれていない追加の文字を表示します。
    UTF-8
    すべての Unicode 文字をサポートし、かつ ASCII との下位互換性があります。UTF の詳細については、unicode.org/faq/utf_bom.html を参照してください。
    UTF-16
    すべての Unicode 文字をサポートします。しかし、ASCII との下位互換性はありません。UTF の詳細については、unicode.org/faq/utf_bom.html を参照してください。
    US-ASCII
    英語のアルファベット順に従う文字エンコーディング。
    UTF-16BE
    ビッグエンディアン UTF-16 エンコーディング (下位アドレスが上位バイトとなるようにシリアル化)。
    UTF-16LE
    リトルエンディアン UTF-16 エンコーディング (下位アドレスが下位バイトとなるようにシリアル化)。
    ISO-8859-1
    主として西ヨーロッパの言語で使われる ASCII 文字エンコーディング。Latin-1 とも呼ばれます。
    ISO-8859-3
    主として南ヨーロッパの言語で使われる ASCII 文字エンコーディング。Latin-3 とも呼ばれます。
    ISO-8859-9
    主としてトルコ語で使われる ASCII 文字エンコーディング。Latin-5 とも呼ばれます。
    CP850
    西ヨーロッパの言語を書くための ASCII コード ページ。
    CP500
    西ヨーロッパの言語を書くための EBCDIC コード ページ。
    Shift_JIS
    日本語のための文字エンコーディング。
    MS932
    NEC 特殊文字、NEC 選定 IBM 拡張文字、IBM 拡張文字を含めた Microsoft の拡張版 Shift_JIS 文字コード。
    CP1047
    Latin-1 文字セット全体を含む EBCDIC コード ページ。
    フィールド区切り文字

    区切り記号付きファイル内のフィールドを区切るのに使用する文字を指定します。

    例えば、次のレコードではパイプ (|) がフィールド区切り文字として使われています。

    7200 13TH ST|MIAMI|FL|33144

    フィールド区切り文字として使用可能な文字は次のとおりです。

    • カンマ
    • セミコロン
    • パイプ (|)
    • タブ
    • スペース
    • ピリオド (.)

    Text qualifier

    区切り記号付きファイル内のテキスト値を囲むのに使用する文字。

    例えば、次のレコードでは二重引用符 (") がテキスト修飾子として使われています。

    "7200 13TH ST"|"MIAMI"|"FL"|"33144"

    テキスト修飾子として定義できるのは次の文字です。

    • 一重引用符 (')
    • 二重引用符 (")

    ライン区切り文字

    順次ファイルまたは区切り記号付きファイル内の行 (ライン) を区切るのに使用する文字を指定します。

    使用できるライン区切り文字の設定は次のとおりです。

    Unix
    改行 (LF) 文字でラインを区切ります。これは Unix システムの標準のライン区切り文字です。
    Macintosh
    復帰 (CR) 文字でラインを区切ります。これは Macintosh システムの標準のライン区切り文字です。
    Windows
    復帰改行 (CR+LF) でラインを区切ります。これは Windows システムの標準のライン区切り文字です。
  4. 最初の行をヘッダーと見なすかどうかを [はい] または [いいえ] のスライディング ボタンによって選択します。その選択に応じてデータ プレビューが変化します。
  5. アイコンをクリックすると、変更が保存され、次のステージに移動します。
  6. 現在のタスクをキャンセルするには、 アイコンをクリックします。