Express マッチ キーの使用

Express キー マッチは、比較の実行回数を減らし、Interflow Match または Intraflow Match ステージを使用するデータフローの実行速度を改善するのに便利なツールです。2 つのレコードが Express キーに完全一致する場合、候補は 100% マッチと見なされ、それ以上の照合は試行されません。2 つのレコードが Express キー値にマッチしない場合は、ルール ベースの方法で比較されます。ただし、あいまいな Express キーを使うと、誤検出のマッチが多数返されます。

  1. Enterprise Designer でデータフローを開きます。
  2. Match Key Generator ステージをダブルクリックします。
  3. [Express マッチ キーを生成] ボックスをオンにします。
  4. [追加] をクリックします。
  5. 以下のフィールドに必要な情報を入力します。
    表 1. Match Key Generator のオプション

    オプション名

    説明と有効値

    アルゴリズム

    マッチ キーの生成に使用するアルゴリズムを次の中から 1 つ指定します。

    Consonant (子音)
    指定したフィールドから子音を削除して返します。
    Double Metaphone
    文字の発音表記に基づくコードを返します。Double Metaphone は Metaphone アルゴリズムの改良版で、さまざまな言語に多数存在する不規則性を考慮しています。
    Koeln
    ドイツ語で発音される名前に、音声によってインデックスを付けます。同じ発音を持つ名前を同じ表現にエンコードできるので、綴りに小さな相違があっても、マッチさせることができます。結果は常に一連の数字です。特殊文字および空白は無視されます。このオプションは、Soundex の制限に対応するために作成されました。
    MD5
    128 ビットのハッシュ値を生成するメッセージ ダイジェスト アルゴリズム。このアルゴリズムは、データの一貫性の確認によく使用されます。
    Metaphone
    選択したフィールドを Metaphone コード化したキーを返します。Metaphone は、英語の発音を使用して単語をコード化するアルゴリズムです。
    Metaphone (スペイン語)
    選択したフィールドをスペイン語用に Metaphone コード化したキーを返します。この Metaphone アルゴリズムは、スペイン語の発音を使用して単語をコード化します。
    Metaphone 3
    Metaphone アルゴリズムおよび Double Metaphone アルゴリズムを、より正確な子音および内部母音の設定で改良したもので、単語または名前の一致性を高く、または低くして、音声ベースで語を検索できるようにします。Metaphone 3 では、音声エンコーディングの精度が 98% に向上しています。このオプションは、Soundex の制限に対応するために作成されました。
    Nysiis
    近似の発音と正確な綴りをマッチさせ、同じように発音される単語にインデックスを付ける、音声コード アルゴリズム。New York State Identification and Intelligence System の一部です。例えば、住民のデータベースで誰かの情報を探しているとします。その人物の名前は "John Smith" のように聞こえますが、実際の綴りは "Jon Smyth" です。"John Smith" の完全一致を探す検索を実行した場合、返される結果はありません。しかし、NYSIIS アルゴリズムを使用してデータベースにインデックスを作成し、再度 NYSIIS アルゴリズムを使用して検索した場合は、正しいマッチが返されます。なぜなら、"John Smith" と "Jon Smyth" は、このアルゴリズムによってどちらも "JAN SNATH" というインデックスが付けられているからです。
    Phonix
    100 を越える変換ルールを適用することによって、名前文字列を単一の文字またはいくつかの文字のシーケンスに前処理します。これらのルールのうち 19 個は文字がその文字列の先頭にある場合にのみ適用され、12 個はその文字列の中間にある場合にのみ適用され、28 個は文字列の終わりにある場合にのみ適用されます。変換された名前文字列は、開始文字とそれに続く 3 桁 (ゼロおよび重複する数字を削除) で構成されるコードにエンコードされます。このオプションは、Soundex の制限に対応するために作成されました。このオプションは複雑なため、Soundex より遅くなります。
    Sonnex
    このアルゴリズムは、文字の発音表記に基づいて、2 つのフランス語の文字列間の類似性を判断します。
    選択したフィールドを Sonnex コード化したキーを返します。
    Soundex
    選択したフィールドの Soundex コードを返します。Soundex は、単語の英語の発音に基づいて、固定長のコードを生成します。
    部分文字列
    選択したフィールドの指定した部分を返します。

    フィールド名

    選択したアルゴリズムを適用してマッチ キーを生成するフィールドを指定します。例えば、LastName というフィールドを選択し、Soundex アルゴリズムを選択した場合、Soundex アルゴリズムが LastName フィールドのデータに適用されて、マッチ キーが生成されます。

    開始位置

    指定したフィールド内での開始位置を指定します。すべてのアルゴリズムで開始位置を指定できるとは限りません。

    長さ

    開始位置から含める文字の数を指定します。すべてのアルゴリズムで長さを指定できるとは限りません。

    ノイズ文字の削除

    ハイフン、空白、その他の特殊文字等、英数字以外の文字を入力フィールドからすべて削除します。

    ソート入力

    入力フィールド内の文字または語をすべてアルファベット順にソートします。

    文字
    ユニーク ID を作成する前に、入力フィールドの文字値をソートします。
    ユニーク ID を作成する前に、入力フィールドの各語値をソートします。
  6. [OK] をクリックします。
  7. Express マッチ キーの生成で使用するフィールドやアルゴリズムを追加で指定する場合は [追加] をクリックし、それ以外の場合は [OK] をクリックします。
  8. キャンバスで Interflow Match または Intraflow Match ステージをダブルクリックします。
  9. [Express マッチ有効] オプションを選択し、[ExpressMatchKey] フィールドを選択します。

    このフィールドには、Match Key Generator によって生成された Express マッチ キーが含まれます。

  10. [OK] をクリックします。
  11. データフローを保存して実行します。

Express キーを使った比較で候補がマッチしたかどうかを確認するには、[ExpressKeyIdentified] フィールドの値をチェックします。"Y" はマッチしたことを示し、"N" はマッチしなかったことを示します。サスペクト レコードは [ExpressKeyIdentified] 値が常に "N" であることに注意してください。