マッチキーの定義に関するテクニック

効果的であると同時に実用的でもあるマッチングを行うには、精度とパフォーマンスのバランスを取る必要があります。マッチングに最高の精度を求めるなら、レコードを他のすべてのレコードと逐一付き合わせる必要がありますが、処理するレコードが多いと耐え難いほどのパフォーマンス低下を招くため、実用的ではありません。マッチング処理に関わるレコードの数を制限するため、マッチングする可能性が高いレコードだけを比較の対象とするのが賢明です。そうするには、マッチキーを使用します。マッチキーとは、ユーザが指定したアルゴリズムで各レコードに対して生成される値です。レコードから値がアルゴリズムに渡され、マッチキー値が生成されます。この値は、レコードに新しいフィールドとして保存されます。

例えば、次のような入力レコードがあり、

名 - Fred
姓 - Mertz
郵便番号 - 21114-1687
性別コード - M

次のようなレコードのデータを組み合わせてマッチキーを生成するマッチキールールを定義したとします。


入力フィールド	開始位置	長さ
郵便番号	1	5
郵便番号	7	4
姓	1	5
名	1	5
性別コード	1	1

次のようなキーになります。

211141687MertzFredM

マッチキーが同じレコードは、同じマッチグループにまとめられます。マッチング処理では、さらにグループ内のレコードが比較され、マッチングが判定されます。

Interflow Match または Intraflow Match を使ってレコードをマッチングする場合は、マッチキーを生成するために、Match Key Generator ステージを使用します。Transactional Match を使ってレコードをマッチングする場合は、Candidate Finder ステージを使ってマッチグループを作成します。

注: 以下に説明するガイドラインは、Match Key Generator キーと Candidate Finder クエリの両方に当てはまります。Candidate Finder では、このガイドラインは SELECT 文の定義方法に対して適用してください。

マッチグループのサイズとパフォーマンス

マッチキーによってマッチグループのサイズが決定されます。これは、データフローのパフォーマンスが決定されるということでもあります。マッチグループのサイズが倍になると、実行時間も倍に伸びます。例えば、マッチングの可能性があるレコードをグループに 20 個含めるマッチキーを定義した場合、10 個しかレコードを含めないマッチキーを使う場合と比較して、処理に倍の時間がかかります。マッチキールールを引き締めると、マッチグループに含まれるレコードが少なくなり、マッチングするレコードを除外してしまう恐れが大きくなります。マッチキールールを緩めると、マッチングするレコードがグループから除外される可能性は低くなりますが、グループのサイズは大きくなります。データに適したバランスを取るには、実際に処理するデータとよく似たデータを使ってさまざまなマッチキールールをテストする必要があります。

密度

マッチキーを設計する際に重要なのは、データの密度を考慮することです。密度とは、データがマッチグループ間に分散する度合いを意味します。パフォーマンスは、実行しなければならない比較の回数で決まるので、小数の大きなマッチグループを生成するマッチキーは、大量の小さなマッチグループを生成するマッチキーと比べてパフォーマンスを低下させます。

この因果関係を具体的に理解するために、マッチングしたい名前と住所のレコードが 100 万件あると想定します。マッチキーとして、郵便番号の先頭 3 バイトと姓の頭文字を使うと仮定します。レコードが全米から集められた場合は、このマッチキーは十分な数のマッチグループを生成し、実用に耐えるパフォーマンスを示すと予想できます。しかし、レコードがすべてニューヨーク州のものだとしたらどうでしょうか。郵便番号はどれも "100" で始まるので、最大でもマッチグループは 26 個しか生成されません。マッチグループは大きくなり、平均で約 38,000 のレコードが含まれる計算になります。

マッチグループごとに発生する比較の最大回数は、以下の数式で求められます。

N * (N-1) / 2

ここで N は、マッチグループに含まれるレコードの数です。

つまり、26 個のマッチグループのそれぞれに 38,000 のレコードがあると、実行される比較の最大回数は約 187 億回に達します。計算の過程はこのようになります。

最初に、マッチグループごとの比較の最大回数を計算します。

38,000 * (38,000-1) / 2 = 721,981,000

次に、この計算結果にマッチグループの数を掛けます。

721,981,000 * 26 = 18,771,506,000

仮に、郵便番号の先頭 3 バイトに 100 とおりの値があるとしたら、生成されるマッチグループは 2,600 個になり、それぞれに含まれるレコード数は平均 380 になるでしょう。この場合、比較の最大回数は 1 億 8,700 万回で、100 分の 1 に減ります。レコードがすべてニューヨーク州のデータであれば、郵便番号の先頭 4 バイト、ないしは 5 バイトをマッチキーに使うことを検討するのが良いでしょう。生成されるマッチグループの数が増え、比較の総数が減ります。若干のマッチング漏れが生じるでしょうが、それと引き換えに実行時間が大幅に短縮されます。

実際には、この例で使用したようなマッチキーは、データに偏りがあるため、等しいサイズでマッチグループを生成しません。例えば、姓が "S" で始まる人は、"X" で始まる人より多いでしょう。このような事情から、最も大きなマッチグループをなるべく小さくすることに気を配る必要があります。レコードが 100,000 個あるマッチグループは、レコードが 10,000 個のマッチグループの 10 倍の大きさですが、比較の回数は 100 倍であり、時間も 100 倍かかります。例えば、郵便番号の 5 バイトと AddressLine1 フィールドの 6 バイトをマッチキーに使うとします。最初の印象では、かなり上等なマッチキーが得られそうです。問題は、私書箱の住所です。ほとんどのマッチグループは実用的な大きさに収まりますが、10002PO BOX のようなキーで若干の非常に大きなマッチグループが生成されます。このような大きなマッチグループを分割するには、マッチキーを修正して、私書箱番号の先頭 2 桁を含めます。

マッチキーをマッチルールに合わせる

最高精度の結果を得るには、使用するマッチルールと相性の良いマッチキーを設計する必要があります。そうするには、マッチルールをどう定義するか十分に検討することが求められます。

マッチキーには、マッチルールで正確なマッチングを得るために必要なフィールドが含まれる必要があります。
マッチキーでは、マッチルールで使用されるものと同じ種類のアルゴリズムを使用します。例えば、発音に基づくアルゴリズムを使うマッチルールと組み合わせるマッチキーであれば、発音に基づくアルゴリズムを使うように設計します。
マッチキーの作成には、マッチルールで使われるすべてのフィールドの値を使います。
マッチキーで使われる 1 つ以上のフィールドにデータの欠落があった場合、マッチキーにどのような影響が現れるか考慮してください。例えば、ミドルネームの頭文字をマッチキーの一部に使用し、データに John A.Smith のレコードと John Smith のレコードが含まれるとします。マッチルールを設定して、ミドルネームの頭文字フィールドに値がなければ無視することにしました。こうすると、先ほどの 2 つのレコードはマッチルールによって一致とみなされます。ただし、マッチキーはミドルネームの頭文字を使うので、2 つのレコードは別のマッチグループに分かれてしまい、互いに比較されません。そのため、マッチルールの意図した結果になりません。

マッチ キーの定義に関するテクニック

マッチ グループのサイズとパフォーマンス

密度

マッチ キーをマッチ ルールに合わせる

マッチキーの定義に関するテクニック

マッチグループのサイズとパフォーマンス

マッチキーをマッチルールに合わせる