Smart Data Quality の概要

Spectrum™ Technology Platform Smart Data Quality は Machine Learning を利用したソリューションであり、エンティティ解決処理のための最初のマッチ ルールとマッチ キー コンポーネント候補を作成するのに役立ちます。データ品質処理に Machine Learning 機能が加わったことで、マッチング手順が大幅に簡素化され、データの潜在的能力を最大限に活用できます。

マッチングのアルゴリズムとしきい値は、ユーザのマッチング シナリオに基づいて自動的に学習されます。最初のマッチ ルールとマッチ キー コンポーネント候補は、入力およびタグ付けの指定によって生成されます。

このシステムを使用してマッチ ルールとマッチ キー コンポーネントを生成するには、サンプル データをアップロードします。サンプル データは、レコードのあらゆるバリエーションを網羅したコレクションでなければなりません。その後、マッチングを実行する列を選択し、それらを大ざっぱなグループにまとめて、異なるバリエーションのレコード ペアを選択できるようにします。さらに、各自のマッチング シナリオに従ってレコードにタグ付けし、サンプル データを通じて学習されたマッチ ルールと共にマッチ キー コンポーネント候補を取得します。

マッチ ルールとマッチ キー コンポーネント候補を生成するための手順については、「タスク フロー」とそれ以降のセクションを参照してください。  

タスク フロー

  1. 最初に、ソースからファイルを選択します。選択したファイルにはサンプル データが含まれている必要があります。このサンプル データは、レコードのあらゆるバリエーションを実際に網羅して表すものでなければなりません。
  2. サンプル データをアップロードした後、データからマッチングを実行する列を選択します。このステップで選択した列は、次のステップでグループの生成に使用します。
  3. このステップでは、グループ強度の値を指定します。この強度は、類似のレコードのグループを生成するのに役立ちます。次のステップに進む前に、生成されたグループを確認してください。
  4. グループを生成して確認した後、表示されたレコード ペアに [一致][アンマッチ][不確定] のようにタグ付けします。これらのタグは、正確なマッチ ルールとマッチ キー コンポーネント候補を生成するのに役立ちます。
  5. 最後に、生成された結果を表示して分析します。確認が終わったマッチ ルールは Enterprise Designerマッチ ルール リポジトリにエクスポートし、マッチング ステージで使用できます。マッチ ルールの詳細については、マッチ ルールを参照してください。

    確認が終わったマッチ キー コンポーネントは、Enterprise DesignerMatch Key Generator ステージで使用できます。Match Key Generator の詳細については、マッチ キーの定義に関するテクニックを参照してください。