オプションの設定

Advanced Transformer のオプションを指定するには、ルールを作成します。複数のルールを作成して、ルールを適用する順序を指定することができます。ルールを作成するには

  1. キャンバスで、Advanced Transformer のインスタンスをダブルクリックします。[Advanced Transformer オプション] ダイアログが表示されます。
  2. 実行時インスタンスの番号を選択し、[OK] をクリックします。実行時インスタンス オプションを使用して、ステージの複数同時インスタンスを実行し、パフォーマンスを向上できるように、データフローを設定します。
  3. [追加] ボタンをクリックします。[Advanced Transformer ルール オプション] ダイアログが表示されます。
    注: 複数の Transformer ルールを追加する場合は、[上へ移動] ボタンと [下へ移動] ボタンを使用して、ルールの適用順序を変更することができます。
  4. 実行する変換動作のタイプを選択し、[OK] をクリックします。以下の表にオプションの一覧を示します。
表 1. Advanced Transformer オプション

オプション

説明

ソース

スキャンおよび分割を評価するためのソース入力フィールドを指定します。

次を使用して抽出

[テーブル データ] または [正規表現] を選択します。

<Drive>:\Program Files\Pitney Bowes\Spectrum\server\modules\advancedtransformer\data. にある XML テーブルを使用してスキャンして分割する場合は、[テーブルデータ]を選択します。各オプションの詳細については、以下の「テーブル データ オプション」を参照してください。

正規表現を使用してスキャンおよび分割を行う場合は、[正規表現] を選択します。正規表現には、データを分割するための追加オプションが多数あります。あらかじめパッケージ化された正規表現のいずれかをリストから選択して使用するか、Regex 構文を使用して独自の正規表現を作成することができます。

例えば、最初の数値が見つかったときにデータを分割することができます。"John Smith 123 Main St." では、"John Smith" が 1 つのフィールドに格納され、"123 Main St." は別のフィールドに格納されます。各オプションの詳細については、後述の正規表現オプションを参照してください。

テーブル データ オプション

非抽出データ

変換したデータを格納する出力フィールドを指定します。元の値を置換する場合は、[ソース] ドロップダウン ボックスで指定したものと同じフィールドを [デスティネーション] フィールドで指定します。

[デスティネーション] フィールドに新しいフィールド名を入力することもできます。新しいフィールド名を入力した場合、そのフィールド名は、Advanced Transformer の下流にあるデータフローのステージに表示されるようになります。

Extracted Data

抽出したデータを格納する出力フィールドを指定します。

[抽出データ] フィールドに新しいフィールド名を入力することができます。新しいフィールド名を入力した場合、そのフィールド名は、Advanced Transformer の下流にあるデータフローのステージに表示されるようになります。

トークン化する文字

トークン化する特殊文字を指定します。トークン化は、語を分離する処理です。例えば、"Smith, John" というデータの入ったフィールドがある場合に、カンマをトークン化するものとします。このデータは、次の語に分離されます。

  • Smith
  • ,
  • John

語が分離されたら、スキャンしてカンマを抽出することによってデータを分割し、正規化するデータとして "Smith" と "John" を明確に識別することができます。

テーブル

フィールドの分割の基礎となる語を含むテーブルを指定します。テーブルの一覧は、Advanced Transformer のテーブルを参照してください。テーブルの作成または変更については、検索テーブルの概要を参照してください。

複数の単語からなる語を検索

指定された文字列内で複数の単語からなる語を検索できるようにするには、このチェック ボックスを選択します。例:

入力文字列 = "Cedar Rapids 52401"、ビジネス ルール = Cedar Rapids = US というエントリを含むテーブルに基づいて文字列内の "Cedar Rapids" を識別する、出力 = "Cedar Rapids" の存在を識別し、[City] などの新しいフィールドに語を格納するものとします。

複数の単語からなる語の検索では、最初にマッチが出現した時点で検索は停止します。

注: このオプションを選択すると、パフォーマンスに悪影響が生じる場合があります。

抽出

実行する抽出のタイプを指定します。次のいずれかから選択します。

語を抽出
選択したテーブルによって識別される語を抽出します。
語の右側の N 語
語の右側の N 語を抽出します。抽出する語数を指定します。例えば、識別された語の右側の 2 語を抽出する場合、2 を指定します。
語の左側の N 語
語の左側の N 語を抽出します。抽出する語数を指定します。例えば、識別された語の左側の 2 語を抽出する場合、2 を指定します。

語の右側または左側の語を抽出する場合、デスティネーション データまたは抽出データにその語自体を含めるかどうかを指定できます。例えば、

2300 BIRCH RD STE 100

というフィールドがあり、"STE 100" を抽出して、抽出データで指定したフィールドに格納する場合、抽出データ フィールドにこの語を含めることにします。すると、"STE" という略語と "100" という語が格納されます。

デスティネーション データも抽出データも選択しない場合、その語は格納されず、破棄されます。

正規表現オプション

正規表現

あらかじめパッケージ化された正規表現をリストから選択するか、テキスト ボックスに独自の正規表現を作成します。Advanced Transformer は、標準の Regex 構文をサポートしています。

Java 2 プラットフォームには java.util.regex というパッケージが含まれており、正規表現を使用することができます。詳細については、java.sun.com/docs/books/tutorial/essential/regex/index.html を参照してください。

[省略記号] ボタン

新しい正規表現を追加または削除するには、このボタンをクリックします。

グループに追加

定義済みの Regex 式を選択するか、新しい Regex 式を入力したら、[グループに追加] をクリックして Regex グループを抽出し、検出されたすべての Regex グループと共に、式全体を [グループ] リストに配置します。

グループ

この列には、選択した正規表現グループの正規表現が表示されます。

例えば、Date Regex 式を選択した場合、テキスト ボックスに次の式が表示されます。(1[012]{1,2}|0?[1-9])[-/.]([12][0-9]|3[01]{1,2}|0?[1-9])[-/.](([0-9]{4}))この Regex 式には 3 つの部分があり、式全体と各部分を異なる出力フィールドに送ることができます。式全体がソース フィールドで検索され、ソース フィールドでマッチが見つかった場合は、関連する部分が割り当てられた出力フィールドに移されます。ソース フィールドが "On 06/12/14" で、Date 式を適用する場合、データ全体 (つまり "06/12/14") を DATE フィールドに、"12" を MONTH フィールドに、"14" を DAY フィールドに、"2006" を YEAR フィールドに格納するよう割り当てます。日付が検索され、見つかった場合は、適切な情報が該当する出力フィールドに移されます。

ソース フィールド: "On 12/14/2006" DATE: "12/14/2006" MONTH: "12" DAY: "14" YEAR: "2006"

[出力フィールド] フィールド

出力フィールドを選択するためのプルダウン メニュー。