プロファイリング ルール

プロファイリング ルールによって、さまざまな種類の分析をデータに実行することができます。プロファイルを設定するときに、必要な種類のデータ分析を実行するプロファイリング ルールを選択します。プロファイルの作成については、プロファイルを作成するを参照してください。

文字分析

文字列フィールド内のパターン、スクリプト、および文字タイプを識別するルールです。このルールを有効にすると、データの文字列フィールドに関する以下の情報が得られます。

  • 頻度: 選択された文字列型の列で、最もよく使われる語句。
  • スクリプト分布: 選択された文字列型の列で検出された、異なるスクリプトとその個数。
  • 文字列の長さ: 選択された文字列型の列に含まれる文字列の長さの分布。
  • 文字のカテゴリ: 選択された列の文字のタイプ。文字、句読文字、数字など。
  • テキスト パターン: 文字列型の列に含まれるデータをパターンに変換し、パターン、個数、出現割合を表示します。パターンは、以下のルールに従って判定されます。
    • 大文字のラテン文字は、"A" に置換
    • 小文字のラテン文字は、"a" に置換
    • 数字は、"9" に置換
    • 制御文字は、"ĉ" に置換

カスタム パターン分析

文字列型の列に含まれる任意のパターンを識別するルールです。データのマッチングに使用する正規表現を、好きなだけ設定できます。プロファイルの作成時にこのルールを設定するには、設定アイコン をクリックして、以下の情報を入力します。

  1. キー: 識別するパターンの名前
  2. 値: パターンの正規表現

    例えば、文字列型の列に含まれる電子メール アドレスを識別する場合は、^(.+)@(.+)$という正規表現を [値] フィールドに入力し、電子メール アドレスを [キー] フィールドに入力します。

  3. 別の正規表現を追加するには、追加アイコンをクリックして、次のキー/値ペアの情報を追加します。データのマッチングに使用する正規表現を、好きなだけ追加できます。

このルールを有効にすると、以下の情報が得られます。

  • 有効性: ルール内の 1 つ以上の正規表現パターンにマッチした値。
  • パターン照合の分布: 正規表現にマッチしたレコードの分布。

日付分析

文字列型の列に含まれる日付を検出および検証するルールです。列の中の日付パターンとその分布も識別します。この分析は、電子メール データなど、誤りの多い列に含まれる日付の検出に有効です。

このルールを選択すると、日付を含む文字列型の列に対して、[データ プロファイリングの結果] ページに [日付サマリ] タブが追加で表示されます。このタブには、以下の情報が表示されます。

  • 有効性: 有効な値と無効な値。
  • 日付パターン: 選択された列で検出された日付パターン、その総数、データ セットにおけるそのパターンの割合。

電子メール分析

電子メール アドレスを検出および検証し、選択されたデータ列に含まれる電子メール ドメインの分布を判定するルールです。

このルールを選択すると、[データ プロファイリングの結果] ページに [電子メール サマリ] タブが追加で表示され、以下の情報が示されます。

  • 有効性: 有効な値と無効な値。
  • ドメイン分布: 選択されたデータ列に含まれる、電子メール ドメイン上位 10 件。

電話番号分析

このルールを選択すると、電話番号が検出および検証され、固定電話番号、携帯電話番号、またはそれ以外の種類の番号として電話番号が識別されます。また、国および地域別の電話番号分布も示されます。電話番号に国コードが指定されていない場合に使用するデフォルトの国を定義するように、このルールを設定する必要があります。

このルールを選択すると、[データ プロファイリングの結果] ページに [電話番号サマリ] タブが追加で表示され、以下の情報が示されます。

  • 有効性: 有効な電話番号と無効な電話番号。
  • 電話番号の種類: 電話番号の種類。携帯電話、固定電話、VOIP、ポケットベル、ボイス メール、フリーダイヤルなど。
  • 電話番号 (国別): 検出された電話番号の国内分布。
  • 電話番号 (地域別): 検出された電話番号の地域内分布。

意味分析

このルールを選択すると、姓、名、都市、国、ISO 国コード 2 および 3、州などの意味型が検出されます。このルールは、[国] 列に含まれる都市名など、誤った列に含まれる値の検出に有効です。

このルールを選択すると、[データ プロファイリングの結果] ページに [意味型] タブが追加で表示され、検出された意味型とその出現回数が示されます。

米国住所分析

Universal Addressing モジュールの米国データベースを使用して住所データの品質を判定するルールです。このルールを実行するには、次の処理が必要です。
  • Universal Addressing モジュールの米国データベースをインストールして、Management Console でリソースとして定義します。このデータベース リソースを追加する方法の詳細については、『管理ガイド』を参照してください。
  • 米国住所分析ルールを設定します。これを行うには、設定ボタン をクリックして、以下の情報を入力します。
    1. 米国住所コーダー データベース: Management Console で設定されている Universal Addressing モジュールのデータベース リソースを選択します。
    2. AddressLine1 フィールドAddressLine5 フィールド: これらのフィールドを、分析するテーブルの列にマッピングします。すべてのフィールドに列名を入力する必要はありません。ただし、情報が具体的であるほど、マッチング スコアは高くなります。
    3. テーブルの列を、[City][Country][USUrbanName][FirmName][PostalCode]、および [StateProvince] の各フィールドにマッピングします。

このルールを選択すると、[データ プロファイリングの結果] ページに [住所サマリ] タブが表示されます。

  • グラフの下の凡例に、データのマッチ スコアが色ごとに表示されます。
  • グラフ エリアの任意の箇所にマウスを合わせると、マッチ スコアが表示されます。スコアは、範囲 (0、1~25、26~50、51~80、81~99、100) に分類されており、0 はデータがデータベースにまったく一致しなかったことを表します。グラフには、検出された (色分けされた) 一致レコードの割合も示されます。
  • グラフ内のエリアをクリックすると、データベースに一致したデータと一致しなかったデータが表示されます。

国際住所分析

Global Address Validation モジュールのデータベースを使用して住所データの品質を判定するルールです。このルールを実行するには、次の処理が必要です。
  • Global Address Validation データベースをインストールして、Management Console でリソースとして定義します。詳細については、『管理ガイド』を参照してください。
  • 国際住所分析ルールを設定します。これを行うには、設定ボタン をクリックして、以下の情報を入力します。
    1. 住所エンジン データベース: Management Console で設定されている Global Address Validation データベース リソースを選択します。
    2. AddressLine1 フィールドCountry フィールド: これらのフィールドを、分析するテーブルの列にマッピングします。
    3. テーブルの列を、[LastLine][City][CitySubdivision][PostalCode], [State][StateSubdivision]、および FirmName の各フィールドにマッピングします。すべてのフィールドに列名を入力する必要はありません。ただし、情報が具体的であるほど、マッチング スコアは高くなります。
このルールを選択すると、[データ プロファイリングの結果] ページに [住所サマリ] タブが表示され、以下の情報が示されます。
  • 国際郵便住所信頼性分布: データのマッチ スコア。スコアは色分けされます。ドーナツ グラフの任意の箇所にマウスを合わせると、スコア範囲 (0、1~25、26~50、51~80、81~99、100) が表示されます。0 はデータがデータベースにまったく一致しなかったことを表します。グラフ内のエリアをクリックすると、一致したデータと一致しなかったデータがプレビュー表示されます。
  • 国際郵便住所精度: 住所の検証レベルの分布。州、家、郵便番号、都市、都市下位区分、通りなど。