オプション

  1. [ロードするマッチ ルール] フィールドで、定義済みのいずれかのマッチ ルールを選択します。このマッチ ルールはそのまま使用することも、必要に応じて変更することもできます。定義済みのいずれかのマッチ ルールを出発点として使用せずに、新しいマッチ ルールを作成する場合は、[新規作成] をクリックします。カスタム ルールは、データフローで 1 つだけ使用できます。
    注: Enterprise Designer の [データフロー オプション] 機能を使用すると、マッチ ルールを実行時に公開して設定できます。
  2. マッチ キュー内のレコードをグループ化するのに使用するフィールドを選択するには、[グループ化方法] をクリックします。Intraflow Match は、同じマッチ キューにある他のレコードに対してのみレコードのマッチングを試みます。
  3. [グループ化方法] フィールドで選択したフィールドに基づいて、照合前に入力をソートするには、[ソート] ボックスを選択します。
  4. ソート パフォーマンス オプションを追加で指定するには、[詳細設定] をクリックします。
    メモリ内レコードの上限値
    ソートでメモリ内に保持できるデータ行の最大数を指定します。この上限を越えると、ディスクにページングします。デフォルトでは、10,000 レコード未満のソートはメモリ内で行われ、10,000 レコードを越えるソートはディスク ソートとして実行されます。上限値は 100,000 レコードです。通常、メモリ内ソートはディスク ソートよりはるかに速いため、大部分のソートがメモリ内ソートとなり、大規模セットのみがディスクに書き出されるよう、この値を十分大きく設定してください。
    注: 複数のジョブを同時並行で実行する環境では、[メモリ内レコードの上限値] の設定を増やすと、メモリ不足になる可能性が高くなります。
    一時ファイルの最大数
    ソート プロセスで使用できる一時ファイルの最大数を指定します。使用する一時ファイルの数を増やすと、パフォーマンスが向上する可能性があります。ただし、最適なファイル数は Spectrum™ Technology Platform を実行しているサーバーの構成に大きく依存します。さまざまな設定を試して、使用する一時ファイル数の増減がパフォーマンスに与える影響を確認する必要があります。必要になる可能性がある一時ファイルの適切な数を計算するには、次の式を使用します。
    (NumberOfRecords × 2) ÷ InMemoryRecordLimit = NumberOfTempFiles 
    一時ファイルの最大数は 1,000 を超える値にはできないことに注意してください。
    圧縮を有効にする
    一時ファイルをディスクに書き込むときに圧縮します。
    注: 最適なソート パフォーマンスの設定は、サーバーのハードウェア構成によって異なります。次の式を一般的なガイドラインとして使用することで、妥当なソート パフォーマンスが得られます。(InMemoryRecordLimit × MaxNumberOfTempFiles ÷ 2) >= TotalNumberOfRecords
  5. [Express マッチ有効] をクリックして Express キー値の初期比較を実行し、2 つのレコードが一致すると判断できるかどうかを確認します。

    Express キー マッチは、実行する比較の回数を減らし、実行速度を改善するには便利なツールです。あいまいな Express キーを使うと、誤検出のマッチが多数返されます。Express キーは、MatchKeyGenerator で生成されるマッチ キーの一部として生成できます。詳細については、Match Key Generatorを参照してください。

    2 つのレコードが Express キーに正確にマッチする場合、候補は 100% の重複と見なされます。2 つのレコードが Express キー値にマッチしない場合は、ルール ベースの方法で比較されます。

    Express キーを使った比較で候補がマッチしたかどうかを確認するには、[ExpressKeyIdentified] フィールドの値をチェックします。"Y" はマッチしたことを示し、"N" はマッチしなかったことを示します。サスペクト レコードは [ExpressKeyIdentified] 値が常に "N" であることに注意してください。

  6. [最初のコレクション番号] テキスト ボックスに、重複レコードのコレクション番号フィールドに割り当てる最初の番号を入力します。

    コレクション番号は、マッチ キュー内の各重複レコードを一意に識別するための値です。ユニーク レコードには、コレクション番号 0 が割り当てられます。各重複レコードには、[最初のコレクション番号] テキスト ボックスに指定された値で始まるコレクション番号が割り当てられます。

  7. 以下のオプションのいずれかを選択します。
    オプション説明

    サスペクトをすべての候補と比較

    このオプションを選択すると、マッチ グループに既に重複が見つかっている場合でも、サスペクトは同じマッチ グループ (グループ化オプション) のすべての候補と照合されます。例:

    サスペクト - John Smith
    候補 - Bill Jones
    候補 - John Smith
    候補 - John Smith

    この例では、サスペクト John Smith が両方の候補 John Smith と比較されます。

    [ユニークな候補を返す] ボックスをオンにすると、マッチ グループ内のレコードのうち、ユニーク レコードと特定されたレコードが候補ポートから返されます。

    n 検出後にサスペクトと候補の比較を停止

    このオプションを選択すると、サスペクトはマッチ グループ (グループ化オプション) 内のすべての候補と比較されますが、ユーザが定義した数だけ重複が検出されると比較が停止します。例えば、1 つの重複を検出した後、候補を停止し、次のデータを得たとします。

    サスペクト - John Smith
    候補 - Bill Jones
    候補 - John Smith
    候補 - John Smith

    この例では、サスペクト レコード John Smith は、最初の候補 John Smith が重複として特定されると、マッチ グループ内での比較を停止します。

  8. [分析用データを生成する] をクリックしてマッチ結果を生成します。詳細については、「マッチ結果の分析」を参照してください。
  9. [ユニーク レコードにコレクション番号 0 を割り当て] (デフォルトでオン) は、ユニーク レコードにコレクション番号としてゼロを割り当てます。このオプションをオフにすると、ユニーク レコードにゼロ以外のコレクション番号が生成されます。ユニーク レコードのコレクション番号は、他のコレクション番号と連動して順に生成されます。例えば、マッチング データフローで 5 つのレコードが検出され、最初の 3 つのレコードがユニークの場合、コレクション番号は下の最初のグループに示すように割り当てられます。マッチング データフローで 5 つのレコードが検出され、最後の 2 つがユニークの場合、コレクション番号は下の 2 つ目のグループに示すように割り当てられます。
    オプション説明
    コレクション番号 レコード タイプ
    1 Unique
    2 Unique
    3 Unique
    4 重複/サスペクト
    4 重複/サスペクト
       
    コレクション番号 レコード タイプ
    1 重複/サスペクト
    1 重複/サスペクト
    2 Unique
    3 Unique
    4 Unique
    このボックスをオンのままにしておくと、データフローで検出されたユニーク レコードにデフォルトでゼロのコレクション番号が割り当てられます。
  10. 選択したマッチ ルール名をステージ出力に含めるには、[一致するルール名を返す] オプションを選択します。
  11. カスタム マッチング ルールを作成するには、マッチ ルールの作成を参照してください。
  12. [評価] をクリックして、サスペクト レコードと候補レコードとの比較によるスコアを生成します。詳細については、「Interflow Match」を参照してください。