マッチ結果のサマリの表示

マッチ分析ツールは、重複レコードの数や平均マッチ スコアなど、データフローのマッチング プロセスに関するサマリを表示できます。単一のジョブの結果を表示したり、複数のジョブの結果を比較したりできます。

  1. Enterprise Designer で、分析するデータフローを開きます。
  2. 分析するマッチングがある各 Interflow Match、Intraflow Match、または Transactional Match ステージでは、ステージをダブルクリックし、[分析用データを生成する] チェックボックスをオンにします。
    重要: [分析用データを生成する] オプションを有効にすると、パフォーマンスが低下します。このオプションは、マッチ分析ツールの終了後にオフにする必要があります。
  3. [実行] > [現在のフローを実行] を選択します。
    注: 最適な結果を得るには、レコードの生成数が 100,000 件以下のデータを使用します。マッチ結果が多くなると、マッチ分析ツールのパフォーマンスが低下します。
  4. データフローの実行が終了したら、[ツール] > [マッチ分析] を選択します。

    [マッチ結果を表示] ダイアログ ボックスに、マッチ分析ツールに表示されたマッチ結果を持つデータフローの一覧が表示されます。分析対象のジョブが一覧に表示されない場合は、データフローを開き、マッチング ステージの [分析用データを生成する] チェック ボックスがオンになっていることを確認します。

    ヒント: データフローが大量にあり、データフローをフィルタリングする場合は、[次のジョブのみ表示] ドロップダウン リストからフィルタ オプションを選択します。
  5. 表示するデータフローの横にある "+" アイコンをクリックして展開します。
  6. データフローの下に、データフローの各マッチャー ステージのエントリが 1 つあります。結果を表示するステージを選択し、[追加] をクリックします。

    マッチ分析ツールが Enterprise Designer ウィンドウの下部に表示されます。

  7. マッチャーの結果を横に並べて別のマッチャーの結果と比較する場合:
    1. [追加] をクリックします。
    2. 結果を比較するマッチャーを選択します。
    3. [追加] をクリックします。
    4. データフローの一覧で、追加したばかりのマッチャーを選択し、[比較] をクリックします。

[サマリ] タブに、ジョブのマッチング統計情報が表示されます。表示される情報は、データフローで使用されるマッチング ステージのタイプによって異なります。

Intraflow Match の場合、以下のサマリ情報が表示されます。

入力レコード
マッチャー ステージで処理されるレコードの合計数。
重複レコード
マッチ グループ内で他のレコードとマッチしたレコード数。
ユニーク レコード
マッチ グループで他のレコードにマッチしないサスペクトまたは候補レコード。マッチ グループ内に 1 つしか存在していないレコードであれば、サスペクトは自動的にユニーク レコードとなります。
マッチ グループ
(グループ化方法) マッチ キーまたはスライディング ウィンドウでグループ化されたレコード。
重複コレクション
サスペクトとその重複レコードがコレクション番号によってグループ化されたもの。ユニーク レコードは常にコレクション番号 0 とされます。
Express マッチ
サスペクトと候補が指定されたフィールド内の内容に正確にマッチした場合に作成されるもののこと。通常は ExpressMatchKey が Match Key Generator によって提供されます。式マッチがそれ以上の処理がされず終了した場合、サスペクトと候補は重複していると判断できます。
平均スコア
すべての重複の平均マッチ スコア。有効な値は 0 ~ 100 です。0 は精度の低いマッチを意味し、100 は完全一致を意味します。

Interflow Match の場合、以下のサマリ情報が表示されます。

重複コレクション
サスペクトとその重複レコードがコレクション番号によってグループ化されたもの。ユニーク レコードは常にコレクション番号 0 とされます。
Express マッチ
サスペクトと候補が指定されたフィールド内の内容に正確にマッチした場合に作成されるもののこと。通常は ExpressMatchKey が Match Key Generator によって提供されます。式マッチがそれ以上の処理がされず終了した場合、サスペクトと候補は重複していると判断できます。
平均スコア
すべての重複の平均マッチ スコア。有効な値は 0 ~ 100 です。0 は精度の低いマッチを意味し、100 は完全一致を意味します。
入力サスペクト
マッチャーが他のレコードとの照合を試みた入力ストリーム内のレコードの数。
[サスペクトと重複]
少なくとも 1 つの候補レコードと一致した入力サスペクトの数。
[ユニーク サスペクト]
どの候補レコードとも一致しなかった入力サスペクトの数。
[サスペクトと候補]
マッチ グループ内に候補レコードが少なくとも 1 つある、つまり照合の試みが少なくとも 1 回は行われた入力サスペクトの数。
[候補がないサスペクト]
マッチ グループ内に候補レコードがない、つまり照合の試みが行われなかった入力サスペクトの数。

Transactional Match の場合、以下のサマリ情報が表示されます。

平均スコア
すべての重複の平均マッチ スコア。有効な値は 0 ~ 100 です。0 は精度の低いマッチを意味し、100 は完全一致を意味します。
入力サスペクト
マッチャーが他のレコードとの照合を試みた入力ストリーム内のレコードの数。
[サスペクトと重複]
少なくとも 1 つの候補レコードと一致した入力サスペクトの数。
[ユニーク サスペクト]
どの候補レコードとも一致しなかった入力サスペクトの数。
[サスペクトと候補]
マッチ グループ内に候補レコードが少なくとも 1 つある、つまり照合の試みが少なくとも 1 回は行われた入力サスペクトの数。
[候補がないサスペクト]
マッチ グループ内に候補レコードがない、つまり照合の試みが行われなかった入力サスペクトの数。

マッチ分析ツールの [リフト/ドロップ] タブには、選択したベースライン結果と、オプションで選択した比較結果について、重複レコードとユニーク レコードの数が棒グラフで表示されます。リフトは、重複レコード数の増加を意味します。ドロップは、重複レコード数の減少を意味します。ユニーク レコードは黄色で、重複レコードは緑で示されます。

ベースライン ジョブのみを選択している場合、グラフにはそのジョブの結果が表示されます。

Results for one job in chart

ベースライン ジョブと比較ジョブの両方を選択している場合は、その両方のジョブを表すグラフが横に並んで表示されます。

Base line and comparison jobs side-by-side

マッチ分析ツールの [マッチ ルール] タブには、単一のマッチ結果に使用するマッチ ルール、または 2 つのマッチ結果を比較するときにマッチ ルールに加える変更が表示されます。

マッチ ルールは階層構造で表示されます。この階層構造はマッチ ルールを作成したステージの階層構造と同じです。ルール階層には、[オプション] と [ルール] の 2 つのノードがあります。[オプション] ノードには、選択したマッチ結果のステージ設定が表示されます。[ルール] ノードには、選択したマッチ結果のマッチ ルールが表示されます。

ルール詳細情報を表示するには、階層内のノードを選択します。

Match rules node in hierarchy

複数のジョブ間でマッチ ルールを比較する場合、ベースライン マッチ結果と比較マッチ結果との相違点は、以下のように色分けして表示されます。

比較マッチ結果のマッチ ルールが変更されたことを示します。
比較マッチ結果のマッチ ルールが追加されたことを示します。
比較マッチ結果のマッチ ルールが省略されたことを示します。

これは次の図に示されています。

Color coding for match results