Smart Data Quality の概要
Spectrum™ Technology Platform Smart Data Quality は Machine Learning を利用したソリューションであり、エンティティ解決処理のための最初のマッチ ルールとマッチ キー コンポーネント候補を作成するのに役立ちます。データ品質処理に Machine Learning 機能が加わったことで、マッチング手順が大幅に簡素化され、データの潜在的能力を最大限に活用できます。
マッチングのアルゴリズムとしきい値は、ユーザのマッチング シナリオに基づいて自動的に学習されます。最初のマッチ ルールとマッチ キー コンポーネント候補は、入力およびタグ付けの指定によって生成されます。
このシステムを使用してマッチ ルールとマッチ キー コンポーネントを生成するには、サンプル データをアップロードします。サンプル データは、レコードのあらゆるバリエーションを網羅したコレクションでなければなりません。その後、マッチングを実行する列を選択し、それらを大ざっぱなグループにまとめて、異なるバリエーションのレコード ペアを選択できるようにします。さらに、各自のマッチング シナリオに従ってレコードにタグ付けし、サンプル データを通じて学習されたマッチ ルールと共にマッチ キー コンポーネント候補を取得します。
マッチ ルールとマッチ キー コンポーネント候補を生成するための手順については、「タスク フロー」とそれ以降のセクションを参照してください。
タスク フロー
- 最初に、ソースからファイルを選択します。選択したファイルにはサンプル データが含まれている必要があります。このサンプル データは、レコードのあらゆるバリエーションを実際に網羅して表すものでなければなりません。
- サンプル データをアップロードした後、データからマッチングを実行する列を選択します。このステップで選択した列は、次のステップでグループの生成に使用します。
- このステップでは、グループ強度の値を指定します。この強度は、類似のレコードのグループを生成するのに役立ちます。次のステップに進む前に、生成されたグループを確認してください。
- グループを生成して確認した後、表示されたレコード ペアに [一致]、[アンマッチ]、[不確定] のようにタグ付けします。これらのタグは、正確なマッチ ルールとマッチ キー コンポーネント候補を生成するのに役立ちます。
- 最後に、生成された結果を表示して分析します。確認が終わったマッチ ルールは Enterprise Designer でマッチ ルール リポジトリにエクスポートし、マッチング ステージで使用できます。マッチ ルールの詳細については、マッチ ルールを参照してください。
確認が終わったマッチ キー コンポーネントは、Enterprise Designer の Match Key Generator ステージで使用できます。Match Key Generator の詳細については、マッチ キーの定義に関するテクニックを参照してください。