用語の使用に一貫性がないと、データ品質の問題が生じ、パーシングや検索などが困難になることがあります。使用に一貫性がない語をデータ内から探して正規化するデータフローを作成できます。例えば、データの企業名に "Incorporated"、"Inc."、"Inc" という語が含まれている場合、1 つの形式 (例えば "Inc.") に正規化するデータフローを作成できます。
注: この手順を実行する前に、データに適用する正規化された語を格納した Data Normalization モジュール データベースを管理者がインストールする必要があります。データベースのインストール手順については、『インストール ガイド』を参照してください。
-
Enterprise Designer で、新しいデータフローを作成します。
-
ソース ステージをキャンバスにドラッグします。
-
ソース ステージをダブルクリックして設定します。ソース ステージの設定手順については、『データフロー デザイナー ガイド』を参照してください。
-
Table Lookup ステージをキャンバス上にドラッグし、ソース ステージに接続します。
例えば、Read from File ソース ステージを使用する場合、データフローは次のようになります。
-
キャンバス上の Table Lookup ステージをダブルクリックします。
-
Table Lookup のオプションを指定するには、ルールを作成します。複数のルールを作成して、ルールを適用する順序を指定することができます。[追加] をクリックして、ルールを作成します。
-
[アクション] フィールドで、デフォルトの [正規化] オプションをオンのままにします。
-
フィールド全体が正規化したい語の場合は、[オン] フィールドで [フィールド全体] が選択された状態のままにします。フィールド内の個々の語を正規化したい場合は、[フィールド内の個々の語] を選択します。
-
[ソース] フィールドで、正規化するフィールドを選択します。
-
[デスティネーション] フィールドで、正規化された語を格納するフィールドを選択します。同じフィールドをソース フィールドとして指定した場合、ソース フィールドの値が正規化された語で置き換えられます。
-
[テーブル] フィールドで、正規化された語を格納するテーブルを選択します。
注: 必要なテーブルが表示されていない場合は、システム管理者に連絡してください。Data Normalization モジュール データベースをロードする必要があります。
-
[テーブル エントリが見つからなかった場合、デスティネーションの値として次の値を設定する] フィールドで、[ソースの値] を選択します。
-
[OK] をクリックします。
-
その他のフィールドの値を正規化する場合は、追加のルールを定義します。ルールの定義が完了したら、[OK] をクリックします。
-
シンク ステージをキャンバス上にドラッグし、Table Lookup ステージに接続します。
例えば、Write to File シンク ステージを使用する場合、データフローは次のようになります。
-
シンク ステージをダブルクリックして設定します。
シンク ステージの設定方法については、『データフロー デザイナー ガイド』を参照してください。
これでデータフローが語を正規化するようになりました。