非ユニーク ID の定義

Unique ID Generator は、いずれかのキー生成アルゴリズムを使用して非ユニーク キーを生成するのに使用できます。非ユニーク モードでは、マッチングに使用するキーを作成できます。これは、データ ウェアハウスで、ディメンションにキーを追加済みで、新しいレコードが既存のレコードと一致するかどうかを確認するために新しいレコード用のキーを生成する場合に便利です。

  1. Unique ID Generator ステージで、[ルール] タブの [変更] をクリックします。
  2. [無効] を選択します。

    これで、ID 生成ルールのユニーク ID 部分が無効になります。このオプションを無効にすると、次の手順で選択するアルゴリズムのみが ID の作成に使用されます。つまり、ID の生成に使用するフィールドのデータが同じレコードには、すべて同じ ID が使用されます。ID は後でマッチングに使用できます。

  3. [OK] をクリックします。
  4. 警告が表示されたら、[はい] をクリックします。
  5. Unique ID Generator ステージで、[追加] をクリックします。
  6. [アルゴリズム] フィールドで、ID の追加情報の生成に使用するアルゴリズムを選択します。次のいずれかです。
    Consonant (子音)
    指定されたフィールドを、子音を削除して返します。
    Double Metaphone
    文字の発音表記に基づくコードを返します。Double Metaphone は Metaphone アルゴリズムの改良版で、さまざまな言語に多数存在する不規則性を考慮しています。
    Koeln
    ドイツ語で発音される名前に、音声によってインデックスを付けます。同じ発音を持つ名前を同じ表現にエンコードできるので、綴りに小さな相違があっても、マッチさせることができます。結果は常に一連の数字です。特殊文字および空白は無視されます。このオプションは、Soundex の制限に対応するために作成されました。
    MD5
    128 ビットのハッシュ値を生成するメッセージ ダイジェスト アルゴリズム。このアルゴリズムは、データの一貫性の確認によく使用されます。
    Metaphone
    選択したフィールドを Metaphone コード化したキーを返します。Metaphone は、英語の発音を使用して単語をコード化するアルゴリズムです。
    Metaphone (スペイン語)
    選択したフィールドをスペイン語用に Metaphone コード化したキーを返します。この Metaphone アルゴリズムは、スペイン語の発音を使用して単語をコード化します。
    Metaphone 3
    Metaphone アルゴリズムおよび Double Metaphone アルゴリズムを、より正確な子音および内部母音の設定で改良したもので、単語または名前の一致性を高く、または低くして、音声ベースで語を検索できるようにします。Metaphone 3 では、音声エンコーディングの精度が 98% に向上しています。このオプションは、Soundex の制限に対応するために作成されました。
    Nysiis
    近似の発音と正確な綴りをマッチさせ、同じように発音される単語にインデックスを付ける、音声コード アルゴリズム。New York State Identification and Intelligence System の一部です。例えば、住民のデータベースで誰かの情報を探しているとします。その人物の名前は "John Smith" のように聞こえますが、実際の綴りは "Jon Smyth" です。"John Smith" の完全一致を探す検索を実行した場合、返される結果はありません。しかし、NYSIIS アルゴリズムを使用してデータベースにインデックスを作成し、再度 NYSIIS アルゴリズムを使用して検索した場合は、正しいマッチが返されます。なぜなら、"John Smith" と "Jon Smyth" は、このアルゴリズムによってどちらも "JAN SNATH" というインデックスが付けられているからです。
    Phonix
    100 を越える変換ルールを適用することによって、名前文字列を単一の文字またはいくつかの文字のシーケンスに前処理します。これらのルールのうち 19 個は文字がその文字列の先頭にある場合にのみ適用され、12 個はその文字列の中間にある場合にのみ適用され、28 個は文字列の終わりにある場合にのみ適用されます。変換された名前文字列は、開始文字とそれに続く 3 桁 (ゼロおよび重複する数字を削除) で構成されるコードにエンコードされます。このオプションは、Soundex の制限に対応するために作成されました。このオプションは複雑なため、Soundex より遅くなります。
    Soundex
    選択したフィールドの Soundex コードを返します。Soundex は、単語の英語の発音に基づいて、固定長のコードを生成します。
    部分文字列
    選択されているフィールドの指定部分を返します。
  7. [フィールド名] フィールドで、アルゴリズムを適用するフィールドを選択します。例えば、Soundex アルゴリズムを選択し、City という名前のフィールドを選択すると、City フィールドのデータに Soundex アルゴリズムを適用して ID が生成されます。
  8. 部分文字列アルゴリズムを選択した場合、部分文字列で使用するフィールドの部分を指定します。
    1. [開始位置] フィールドで、部分文字列を開始するフィールド内の位置を指定します。
    2. [長さ] フィールドで、部分文字列に含める開始位置からの文字数を選択します。

      例えば、LastName という名前のフィールドに次のデータが含まれているとします。

      Augustine

      開始位置を 3、終了位置を 6 に指定すると、次の部分文字列が作成されます。

      gustin

  9. [ノイズ文字の削除] ボックスをチェックすると、アルゴリズムを適用する前に、英数字以外の文字 (ハイフン、空白スペース、その他の特殊文字など) がフィールドからすべて削除されます。
  10. Consonant (子音) および部分文字列アルゴリズムの場合、[ソート入力] ボックスをチェックすると、アルゴリズムを適用する前に、フィールドのデータをソートできます。その後、フィールド内の文字または語をアルファベット順にソートできます。
  11. [OK] をクリックして、設定を保存します。
  12. 他のアルゴリズムを追加して、より複雑な ID を作成する場合は、これらの操作を必要に応じて繰り返します。
    注: ユニーク キーの定義は常に異なる色で表示され、削除できません。