プロファイリング結果における列の詳細情報

[データプロファイリングの結果] ページの左ペインでクリックした列に基づき、以下の詳細が表示されます。

完全性: 列で検出された完全、Null、および空の文字列の割合
一意性: 以下の統計がここに表示されます。
- ユニーク: データソースに重複がないレコード
- 非ユニーク: データソース内に重複があるレコード
- 個別: ユニークレコードか非ユニークレコードかにかかわらず、データソースに存在するすべてのレコードの一覧
例えば、列に次のような名前が含まれているとします。
```
Roger
Gigi
Gigi
Gigi
Garey
Elena
Brad
Brad
```
ここで、
- Roger、Garey、および Elena はユニークレコードです。
- Gigi と Brad は非ユニークレコードです。
- Roger、Gigi、Garey、Brad、および Elena は個別レコードです。
列データが文字列の場合、文字の最小長および最大長
列に数値データが含まれる場合、標準偏差 (Stdev)、最大値 (Max)、最小値 (Min)、分散、および平均値。
列に数値データが含まれる場合、データの分布を表すヒストグラム
列に数値データが含まれる場合、百分位数
列内のデータの出現回数
列データタイプが文字列の場合、文字列の長さ
列データタイプが文字列の場合、スクリプト分布
列データタイプが文字列の場合、テキストパターンの度数
文字のカテゴリ: 選択した文字列型の列で検出されたラテン文字タイプの度数をグラフィカルに表示します。さまざまなカテゴリがあります。
- 大文字と小文字の区別: 大文字、小文字、および大文字と小文字の混在
- 文字データタイプ: 英字、数字、および英数字
- 空白を含む: 単一の空白、複数の空白、末尾または先頭の空白
- 特殊文字: 含む、または含まない。
  注: ここでは、文字分析ルールの設定中に定義された特殊文字のみが考慮されます。

異常値の表示

[異常値] タブをクリックして、列で検出された異常値を表示できます。このタブには、列においてカテゴリ別に検出された異常値が表形式の構造で表示されます。パターン長さ、値、度数、計算された範囲、発生などの詳細も表示されます。

候補ページの表示

このページには、データに対して生成されるさまざまな候補が包括的に表示されます。データのクレンジングのためにこうした候補を選択できます。

このページは 2 つの部分に分かれています。

プロファイルの詳細を示すヘッダー - こうした詳細情報は、分析されたプロファイルについて表示されます。
- プロファイル名: プロファイルの名前
- 説明: プロファイルに関する簡単な説明
- 開始: プロファイルの分析が開始されたときの日付 (yyyy/mm/dd)、時刻 (hh:mm:ss)、および期間 (AM または PM)。
- データソース: 分析するプロファイル内のデータのソース。物理モデル、論理モデル、またはデータソースへの直接接続のいずれかです。
- ユーザ: プロファイルを作成したユーザ。
- テーブル: 選択されているモデルのテーブル数
- データソースタイプ: プロファイルのデータソースがモデルか、それともデータベースか。
- レコード: 分析されたレコードの総数
- [統計] ボタン: [データプロファイリングの結果] ページに移動します。詳細については、[データプロファイリングの結果] ページでの候補の表示を参照してください。
2 番目のセクションには、テーブルの名前と共に [推奨] ボタンが表示されます。このボタンをクリックすると、テーブルの候補に関する Groovy スクリプトが表示されます。アイコンによってテーブルを展開すると、テーブルの列に関する候補を表示できます。

候補提示のアクションが生成されたさまざまな列について、候補などの詳細情報とそれらの対応する説明が表形式で表示されます。[詳細の表示] ボタンにより、統計のプレビューが表示されます。ここでは、[候補の選択] ボタンをクリックして任意の候補を選択したり、[候補の削除] ボタンをクリックして既に適用されている候補を削除したりできます。

アイコンは、候補の選択が正常に行われたことを示します。対応する [推奨] ボタンをクリックすることで、特定の候補に対する Groovy スクリプトの表示およびコピーを行うことができます。

注: 候補が選択されている特定のテーブルのすべての列について Groovy スクリプトをダウンロードしてコピーするには、テーブル名の隣に配置されている [推奨] ボタンをクリックします。このボタンをクリックすると、[推奨] ウィンドウが表示されます。このウィンドウには、テーブル名、列名、Groovy スクリプトに従って生成された候補など、詳細情報が表示されます。

[データプロファイリングの結果] ページからの独立した統計について候補を表示および選択できます。データの統計を調査し、要件に従っていずれかの候補を選択します。詳細については、[データプロファイリングの結果] ページでの候補の表示を参照してください。

[データプロファイリングの結果] ページでの候補の表示

データをクレンジングするための候補を表示できます。これらの候補は、データの統計に基づいて生成されます。これらは選択することが可能です。[候補] ボタンをクリックします。候補を示す新しいウィンドウがポップアップ表示されます。

アイコンをクリックすると、次の候補に移動できます。

注: いずれかの候補のオプションを選択した後、変換されたデータを表示するには、

アイコンをクリックします。その候補を選択する場合は、[候補の選択] ボタンをクリックします。候補が正常に選択されたことを示すメッセージが表示されます。

サマリタブでの候補

文字のカテゴリでは、データに基づいて以下の候補のいずれかが表示されます。

文字データタイプ: データで検出された文字データタイプ (数字、英数字、英字) が表形式でそれぞれの度数と共に表示されます。オプションのリストから、これらの値のトリムまたは除去、あるいはデフォルト値への設定を選択できます。このオプションの選択時に表示されるテキストボックスでこの値を指定する必要があります。
空白の削除: データに存在する冗長な空白 (単一の空白、複数の空白、末尾または先頭の空白) が表形式でそれぞれの度数と共に表示されます。要件に従って以下のオプションのいずれかを選択できます。
- 空白のトリム - データ内に存在する末尾または先頭の空白が削除されます。
- 空白の抑制 - 2 つの単語間の冗長な空白が削除されます。末尾または先頭の空白も削除されます。
- 空白の削除 - データ内に存在するすべての空白が削除されます。
大文字と小文字の正規化: 大文字と小文字の混在、大文字、小文字といったデータの大文字と小文字の区別を正規化して、規則正しいデータにすることができます。データを小文字または大文字に変更することもできます。これにより、データのクレンジングが行われ、データの均一性、読みやすさが向上します。
特殊文字の削除: このオプションにより、データ内に存在する冗長な特殊文字を削除できます。検出された特殊文字は、[オプション] セクションの下にあるテキストボックスに表示されます。データをクレンジングする場合、削除する特殊文字を選択し、残したい特殊文字を Backspace キーでテキストボックスから削除することができます。
制御文字の削除: このオプションにより、データ内に存在する冗長で印字不可能な制御文字を削除できます。データで検出された制御文字は [統計] セクションの下に表示されます。データのクレンジングをさらに進めるには、[制御文字の削除] オプションを選択し、この候補を適用します。

一意性では、以下の候補が表示されます。

意味型の作成: 個別のデータを性別、名、姓、国、電話番号などの意味型に分類できます。個別のデータの統計グラフをクリックします。データのプレビューが表示されます。テーブル管理により、このデータをダウンロードして意味型を作成します。テーブル管理の詳細については、「検索テーブルの概要」を参照してください。

完全性では、以下の候補が表示されます。

Null の処理: データ内に存在する Null および空の文字列をデフォルト値に設定できます。これにより、データの均一性と完全性が向上します。完全、Null および空の文字列の度数が [統計] セクションの下に表形式で表示されます。[オプション] テキストボックスに適切なデフォルト値を入力し、この候補を選択します。

[日付サマリ] タブの候補

日付パターンでは、次の候補が表示されます。

日付の正規化: データ内に存在する日付のフォーマットを規則正しいものにして、データの一貫性を高めることができます。データで検出されたさまざまな日付フォーマットの度数が表形式で表示されます。[オプション] セクションの下にある [日付フォーマット] ドロップダウンから適切なフォーマットを選択します。

[カスタムパターン] タブの候補

マッチング対象パターンでは、次の候補が表示されます。

パターンクレンジング: プロファイルの設定中に指定したカスタムパターンに従っていない値をデータから除去できます。カスタムパターンの詳細については、「カスタムパターン分析」を参照してください。最も高い度数のカテゴリがリファレンスとして扱われます。その他の統計はこのリファレンスに対するマッチングが行われます。非マッチング統計に対して以下のオプションのいずれかを選択できます。

デフォルト値に設定する。用意されているテキストボックスにデフォルト値を入力します。
Null に設定する

適切なオプションを選択した後、この候補を選択してデータをクレンジングします。

[異常値] タブでの候補

意味型の異常値では、次の候補が表示されます。

意味型の分離: 列に存在する意味型の異常値を別の列に移動し、データの均一性と明瞭性を高めることができます。データで検出されたさまざまな異常値の度数が表形式で表示されます。検出された異常値を別のカスタム列に移動し、意味型を分離することができます。

別の列に移動したい異常値を選択し、その列のカスタム名テキストボックスに入力して、この候補を選択します。

注: 候補の選択が正常に行われた後、[候補] ウィンドウを閉じると、[推奨内容の表示] プロンプトが表示されます。[はい] をクリックすると、[候補] ページに移動します。このページから Groovy スクリプトをコピーし、Enterprise Designer で使用することができます。詳細については、候補ページの表示を参照してください。