Tokenize

%Tokenize([token set],[preserved set]); 

このコマンドはオプションです。省略した場合は、デフォルトの [\s] が使用されます。これはスペース、タブ、または改行を表す正規表現のデフォルトです。

フィールドをトークン化するために使う文字を定義し、保持する文字を設定します。

[token set] は、フィールドを自動的にトークン化するために使われる一連の文字です。トークン化とは、区切り文字を使ってフィールドを区切ることを意味します。

%Tokenize([-\s],[-];

この例では、空白とダッシュを使ってトークン化を行い、ダッシュをトークンとして保持します。

注: %Tokenize は Java の RegEx 構文ルールに従います。バックスラッシュ文字 "\" を使うと、ハイフンやその他のメタ文字を通常の文字として扱うように Open Parser に強制できます。例えば、ハイフン文字 (-) は、リテラル文字のハイフンとして使用するか、文字の範囲指定に使用できます。%Tokenize の値を [(-)] に設定すると、Open Parser は、左カッコ "(" の文字と右カッコ ")" の文字に囲まれた範囲の文字を意味すると解釈します。予約語の全一覧については、コマンドのメタ文字を参照してください。

[preserved set] は、token set に含まれるトークンのうち、トークンとして残されてトークン一覧に表示されるものの文字セットの正規表現定義です。例えば、token set が空白とハイフンで、preserved set がハイフンである場合、"before-after this" は、'before'、'-'、'after'、'this' という 4 つのトークンに分割されます。

このコマンドを使用するには、次の手順に従います。

  1. コマンドを挿入する場所にカーソルを位置付けます。
  2. [コマンド] リストの [%Tokenize] をダブルクリックします。
  3. [トークン セット] 矢印をクリックして RegEx 値を選択するか、[トークン セット] テキスト ボックスに値を入力します。

    トークン セットの定義に使用できる、定義済み RegEx タグがいくつか用意されています。詳細については、「カルチャー固有のパーシング グラマーの定義」を参照してください。

  4. 必要に応じて、[保存する文字] チェック ボックスを選択します。
  5. [保存するトークン セット文字] 矢印をクリックして値を選択するか、テキスト ボックスに値を入力します。
  6. [OK] をクリックします。