プロファイリングルール

プロファイリングルールによって、さまざまな種類の分析をデータに実行することができます。プロファイルを設定するときに、必要な種類のデータ分析を実行するプロファイリングルールを選択します。プロファイルの作成については、プロファイルを作成するを参照してください。

文字分析

文字列フィールド内のパターン、スクリプト、および文字タイプを識別するルールです。このルールを有効にすると、データの文字列フィールドに関する以下の情報が得られます。

頻度: 選択された文字列型の列で、最もよく使われる語句。
スクリプト分布: 選択された文字列型の列で検出された、異なるスクリプトとその個数。
文字列の長さ: 選択された文字列型の列に含まれる文字列の長さの分布。
文字のカテゴリ: 選択された列の文字のタイプ。文字、句読文字、数字など。
テキストパターン: 文字列型の列に含まれるデータをパターンに変換し、パターン、個数、出現割合を表示します。パターンは、以下のルールに従って判定されます。
- 大文字のラテン文字は、"A" に置換
- 小文字のラテン文字は、"a" に置換
- 数字は、"9" に置換
- 制御文字は、"ĉ" に置換

カスタムパターン分析

文字列型の列に含まれる任意のパターンを識別するルールです。データのマッチングに使用する正規表現を、好きなだけ設定できます。プロファイルの作成時にこのルールを設定するには、設定アイコンをクリックして、以下の情報を入力します。

キー: 識別するパターンの名前
値: パターンの正規表現
例えば、文字列型の列に含まれる電子メールアドレスを識別する場合は、^(.+)@(.+)$という正規表現を [値] フィールドに入力し、電子メールアドレスを [キー] フィールドに入力します。
別の正規表現を追加するには、追加アイコンをクリックして、次のキー/値ペアの情報を追加します。データのマッチングに使用する正規表現を、好きなだけ追加できます。

このルールを有効にすると、以下の情報が得られます。

有効性: ルール内の 1 つ以上の正規表現パターンにマッチした値。
パターン照合の分布: 正規表現にマッチしたレコードの分布。

日付分析

文字列型の列に含まれる日付を検出および検証するルールです。列の中の日付パターンとその分布も識別します。この分析は、電子メールデータなど、誤りの多い列に含まれる日付の検出に有効です。

このルールを選択すると、日付を含む文字列型の列に対して、[データプロファイリングの結果] ページに [日付サマリ] タブが追加で表示されます。このタブには、以下の情報が表示されます。

有効性: 有効な値と無効な値。
日付パターン: 選択された列で検出された日付パターン、その総数、データセットにおけるそのパターンの割合。

電子メール分析

電子メールアドレスを検出および検証し、選択されたデータ列に含まれる電子メールドメインの分布を判定するルールです。

このルールを選択すると、[データプロファイリングの結果] ページに [電子メールサマリ] タブが追加で表示され、以下の情報が示されます。

有効性: 有効な値と無効な値。
ドメイン分布: 選択されたデータ列に含まれる、電子メールドメイン上位 10 件。

電話番号分析

このルールを選択すると、電話番号が検出および検証され、固定電話番号、携帯電話番号、またはそれ以外の種類の番号として電話番号が識別されます。また、国および地域別の電話番号分布も示されます。電話番号に国コードが指定されていない場合に使用するデフォルトの国を定義するように、このルールを設定する必要があります。

このルールを選択すると、[データプロファイリングの結果] ページに [電話番号サマリ] タブが追加で表示され、以下の情報が示されます。

有効性: 有効な電話番号と無効な電話番号。
電話番号の種類: 電話番号の種類。携帯電話、固定電話、VOIP、ポケットベル、ボイスメール、フリーダイヤルなど。
電話番号 (国別): 検出された電話番号の国内分布。
電話番号 (地域別): 検出された電話番号の地域内分布。

意味分析

このルールを選択すると、姓、名、都市、国、ISO 国コード 2 および 3、州などの意味型が検出されます。このルールは、[国] 列に含まれる都市名など、誤った列に含まれる値の検出に有効です。

このルールを選択すると、[データプロファイリングの結果] ページに [意味型] タブが追加で表示され、検出された意味型とその出現回数が示されます。

米国住所分析

Universal Addressing モジュールの米国データベースを使用して住所データの品質を判定するルールです。このルールを実行するには、次の処理が必要です。

Universal Addressing モジュールの米国データベースをインストールして、Management Console でリソースとして定義します。このデータベースリソースを追加する方法の詳細については、『管理ガイド』を参照してください。
米国住所分析ルールを設定します。これを行うには、設定ボタンをクリックして、以下の情報を入力します。
1. 米国住所コーダーデータベース: Management Console で設定されている Universal Addressing モジュールのデータベースリソースを選択します。
2. AddressLine1 フィールド～ AddressLine5 フィールド: これらのフィールドを、分析するテーブルの列にマッピングします。すべてのフィールドに列名を入力する必要はありません。ただし、情報が具体的であるほど、マッチングスコアは高くなります。
3. テーブルの列を、[City]、[Country]、[USUrbanName]、[FirmName]、[PostalCode]、および [StateProvince] の各フィールドにマッピングします。

このルールを選択すると、[データプロファイリングの結果] ページに [住所サマリ] タブが表示されます。

グラフの下の凡例に、データのマッチスコアが色ごとに表示されます。
グラフエリアの任意の箇所にマウスを合わせると、マッチスコアが表示されます。スコアは、範囲 (0、1～25、26～50、51～80、81～99、100) に分類されており、0 はデータがデータベースにまったく一致しなかったことを表します。グラフには、検出された (色分けされた) 一致レコードの割合も示されます。
グラフ内のエリアをクリックすると、データベースに一致したデータと一致しなかったデータが表示されます。

国際住所分析

Global Address Validation モジュールのデータベースを使用して住所データの品質を判定するルールです。このルールを実行するには、次の処理が必要です。

Global Address Validation データベースをインストールして、Management Console でリソースとして定義します。詳細については、『管理ガイド』を参照してください。
国際住所分析ルールを設定します。これを行うには、設定ボタンをクリックして、以下の情報を入力します。
1. 住所エンジンデータベース: Management Console で設定されている Global Address Validation データベースリソースを選択します。
2. AddressLine1 フィールドと Country フィールド: これらのフィールドを、分析するテーブルの列にマッピングします。
3. テーブルの列を、[LastLine]、[City]、[CitySubdivision]、[PostalCode], [State]、[StateSubdivision]、および FirmName の各フィールドにマッピングします。すべてのフィールドに列名を入力する必要はありません。ただし、情報が具体的であるほど、マッチングスコアは高くなります。

このルールを選択すると、[データプロファイリングの結果] ページに [住所サマリ] タブが表示され、以下の情報が示されます。

国際郵便住所信頼性分布: データのマッチスコア。スコアは色分けされます。ドーナツグラフの任意の箇所にマウスを合わせると、スコア範囲 (0、1～25、26～50、51～80、81～99、100) が表示されます。0 はデータがデータベースにまったく一致しなかったことを表します。グラフ内のエリアをクリックすると、一致したデータと一致しなかったデータがプレビュー表示されます。
国際郵便住所精度: 住所の検証レベルの分布。州、家、郵便番号、都市、都市下位区分、通りなど。

プロファイリング ルール