プロファイリング結果における列の詳細情報
- 完全性: 列で検出された完全、Null、および空の文字列の割合
- 一意性: 以下の統計がここに表示されます。
- ユニーク: データ ソースに重複がないレコード
- 非ユニーク: データ ソース内に重複があるレコード
- 個別: ユニーク レコードか非ユニーク レコードかにかかわらず、データ ソースに存在するすべてのレコードの一覧
例えば、列に次のような名前が含まれているとします。
ここで、Roger Gigi Gigi Gigi Garey Elena Brad Brad
-
Roger、Garey、および Elena はユニーク レコードです。
- Gigi と Brad は非ユニーク レコードです。
- Roger、Gigi、Garey、Brad、および Elena は個別レコードです。
- 列データが文字列の場合、文字の最小長および最大長
- 列に数値データが含まれる場合、標準偏差 (Stdev)、最大値 (Max)、最小値 (Min)、分散、および平均値。
- 列に数値データが含まれる場合、データの分布を表すヒストグラム
- 列に数値データが含まれる場合、百分位数
- 列内のデータの出現回数
- 列データ タイプが文字列の場合、文字列の長さ
- 列データ タイプが文字列の場合、スクリプト分布
- 列データ タイプが文字列の場合、テキスト パターンの度数
- 文字のカテゴリ: 選択した文字列型の列で検出されたラテン文字タイプの度数をグラフィカルに表示します。さまざまなカテゴリがあります。
- 大文字と小文字の区別: 大文字、小文字、および大文字と小文字の混在
- 文字データ タイプ: 英字、数字、および英数字
- 空白を含む: 単一の空白、複数の空白、末尾または先頭の空白
- 特殊文字: 含む、または含まない。注: ここでは、文字分析ルールの設定中に定義された特殊文字のみが考慮されます。
異常値の表示
[異常値] タブをクリックして、列で検出された異常値を表示できます。このタブには、列においてカテゴリ別に検出された異常値が表形式の構造で表示されます。パターン長さ、値、度数、計算された範囲、発生などの詳細も表示されます。
候補ページの表示
このページは 2 つの部分に分かれています。
- プロファイルの詳細を示すヘッダー - こうした詳細情報は、分析されたプロファイルについて表示されます。
- プロファイル名: プロファイルの名前
- 説明: プロファイルに関する簡単な説明
- 開始: プロファイルの分析が開始されたときの日付 (yyyy/mm/dd)、時刻 (hh:mm:ss)、および期間 (AM または PM)。
- データ ソース: 分析するプロファイル内のデータのソース。物理モデル、論理モデル、またはデータ ソースへの直接接続のいずれかです。
- ユーザ: プロファイルを作成したユーザ。
- テーブル: 選択されているモデルのテーブル数
- データ ソース タイプ: プロファイルのデータ ソースがモデルか、それともデータベースか。
- レコード: 分析されたレコードの総数
- [統計] ボタン: [データ プロファイリングの結果] ページに移動します。詳細については、[データ プロファイリングの結果] ページでの候補の表示を参照してください。
- 2 番目のセクションには、テーブルの名前と共に [推奨] ボタンが表示されます。このボタンをクリックすると、テーブルの候補に関する Groovy スクリプトが表示されます。 アイコンによってテーブルを展開すると、テーブルの列に関する候補を表示できます。
[データ プロファイリングの結果] ページからの独立した統計について候補を表示および選択できます。データの統計を調査し、要件に従っていずれかの候補を選択します。詳細については、[データ プロファイリングの結果] ページでの候補の表示を参照してください。
[データ プロファイリングの結果] ページでの候補の表示
サマリ タブでの候補
- 文字データ タイプ: データで検出された文字データ タイプ (数字、英数字、英字) が表形式でそれぞれの度数と共に表示されます。オプションのリストから、これらの値のトリムまたは除去、あるいはデフォルト値への設定を選択できます。このオプションの選択時に表示されるテキスト ボックスでこの値を指定する必要があります。
- 空白の削除: データに存在する冗長な空白 (単一の空白、複数の空白、末尾または先頭の空白) が表形式でそれぞれの度数と共に表示されます。要件に従って以下のオプションのいずれかを選択できます。
- 空白のトリム - データ内に存在する末尾または先頭の空白が削除されます。
- 空白の抑制 - 2 つの単語間の冗長な空白が削除されます。末尾または先頭の空白も削除されます。
- 空白の削除 - データ内に存在するすべての空白が削除されます。
- 大文字と小文字の正規化: 大文字と小文字の混在、大文字、小文字といったデータの大文字と小文字の区別を正規化して、規則正しいデータにすることができます。データを小文字または大文字に変更することもできます。これにより、データのクレンジングが行われ、データの均一性、読みやすさが向上します。
- 特殊文字の削除: このオプションにより、データ内に存在する冗長な特殊文字を削除できます。検出された特殊文字は、[オプション] セクションの下にあるテキスト ボックスに表示されます。データをクレンジングする場合、削除する特殊文字を選択し、残したい特殊文字を Backspace キーでテキスト ボックスから削除することができます。
- 制御文字の削除: このオプションにより、データ内に存在する冗長で印字不可能な制御文字を削除できます。データで検出された制御文字は [統計] セクションの下に表示されます。データのクレンジングをさらに進めるには、[制御文字の削除] オプションを選択し、この候補を適用します。
意味型の作成: 個別のデータを性別、名、姓、国、電話番号などの意味型に分類できます。個別のデータの統計グラフをクリックします。データのプレビューが表示されます。テーブル管理により、このデータをダウンロードして意味型を作成します。テーブル管理の詳細については、「検索テーブルの概要」を参照してください。
Null の処理: データ内に存在する Null および空の文字列をデフォルト値に設定できます。これにより、データの均一性と完全性が向上します。完全、Null および空の文字列の度数が [統計] セクションの下に表形式で表示されます。[オプション] テキストボックスに適切なデフォルト値を入力し、この候補を選択します。
[日付サマリ] タブの候補
日付パターンでは、次の候補が表示されます。
日付の正規化: データ内に存在する日付のフォーマットを規則正しいものにして、データの一貫性を高めることができます。データで検出されたさまざまな日付フォーマットの度数が表形式で表示されます。[オプション] セクションの下にある [日付フォーマット] ドロップダウンから適切なフォーマットを選択します。
[カスタム パターン] タブの候補
マッチング対象パターンでは、次の候補が表示されます。
- デフォルト値に設定する。用意されているテキスト ボックスにデフォルト値を入力します。
- Null に設定する
適切なオプションを選択した後、この候補を選択してデータをクレンジングします。
[異常値] タブでの候補
意味型の異常値では、次の候補が表示されます。
意味型の分離: 列に存在する意味型の異常値を別の列に移動し、データの均一性と明瞭性を高めることができます。データで検出されたさまざまな異常値の度数が表形式で表示されます。検出された異常値を別のカスタム列に移動し、意味型を分離することができます。別の列に移動したい異常値を選択し、その列のカスタム名テキスト ボックスに入力して、この候補を選択します。