Data Normalization モジュール

Data Normalization モジュールでは、レコード内の語を調べ、その語が好ましい形式であるかどうかを確認します。

コンポーネント

Data Normalization モジュールは、次の要素で構成されます。

  • Advanced Transformer — このステージは、一連のデータをスキャンして複数のフィールドに分割し、抽出データと非抽出データを新規または既存のフィールドに配置します。
  • Open Parser — このステージは、世界のさまざまなカルチャーからの入力データを、シンプルかつ強力なパーシング グラマーでパースします。このグラマーを使用すると、ドメイン パターンを表す一連の式を入力データのパース用に定義できます。また、Open Parser は、統計データを収集してパーシング マッチにスコアを付けるため、パーシング グラマーの効果を調べるのも容易です。
  • Table Lookup — このステージは、語を評価し、その語とその語の妥当性確認済みの形式とを比較します。語が適切な形式でない場合は、その語を標準バージョンに置き換えます。Table Lookup では、単語のフルスペルから省略形への変換、単語の省略形からフルスペルへの変換、ニックネームからフルネームへの変換、スペルの誤り訂正を行うことができます。
  • Transliterator — Transliterator は、ラテン文字など、異なるスクリプト (用字系) の間で文字列を変換します。