語の正規化

用語の使用に一貫性がないと、データ品質の問題が生じ、パーシングや検索などが困難になることがあります。使用に一貫性がない語をデータ内から探して正規化するデータフローを作成できます。例えば、データの企業名に "Incorporated"、"Inc."、"Inc" という語が含まれている場合、1 つの形式 (例えば "Inc.") に正規化するデータフローを作成できます。

注: この手順を実行する前に、データに適用する正規化された語を格納した Data Normalization モジュール データベースを管理者がインストールする必要があります。データベースのインストール手順については、『インストール ガイド』を参照してください。
  1. Enterprise Designer で、新しいデータフローを作成します。
  2. ソース ステージをキャンバスにドラッグします。
  3. ソース ステージをダブルクリックして設定します。ソース ステージの設定手順については、『データフロー デザイナー ガイド』を参照してください。
  4. Table Lookup ステージをキャンバス上にドラッグし、ソース ステージに接続します。

    例えば、Read from File ソース ステージを使用する場合、データフローは次のようになります。

    Read from File in dataflow
  5. キャンバス上の Table Lookup ステージをダブルクリックします。
  6. Table Lookup のオプションを指定するには、ルールを作成します。複数のルールを作成して、ルールを適用する順序を指定することができます。[追加] をクリックして、ルールを作成します。
  7. [アクション] フィールドで、デフォルトの [正規化] オプションをオンのままにします。
  8. フィールド全体が正規化したい語の場合は、[オン] フィールドで [フィールド全体] が選択された状態のままにします。フィールド内の個々の語を正規化したい場合は、[フィールド内の個々の語] を選択します。
  9. [ソース] フィールドで、正規化するフィールドを選択します。
  10. [デスティネーション] フィールドで、正規化された語を格納するフィールドを選択します。同じフィールドをソース フィールドとして指定した場合、ソース フィールドの値が正規化された語で置き換えられます。
  11. [テーブル] フィールドで、正規化された語を格納するテーブルを選択します。
    注: 必要なテーブルが表示されていない場合は、システム管理者に連絡してください。Data Normalization モジュール データベースをロードする必要があります。
  12. [テーブル エントリが見つからなかった場合、デスティネーションの値として次の値を設定する] フィールドで、[ソースの値] を選択します。
  13. [OK] をクリックします。
  14. その他のフィールドの値を正規化する場合は、追加のルールを定義します。ルールの定義が完了したら、[OK] をクリックします。
  15. シンク ステージをキャンバス上にドラッグし、Table Lookup ステージに接続します。

    例えば、Write to File シンク ステージを使用する場合、データフローは次のようになります。

    Write to File in dataflow
  16. シンク ステージをダブルクリックして設定します。

    シンク ステージの設定方法については、『データフロー デザイナー ガイド』を参照してください。

これでデータフローが語を正規化するようになりました。