Tokenize

%Tokenize([token set],[preserved set]); 

Dies ist ein optionaler Befehl. Wenn er nicht angegeben ist, lautet die Standardeinstellung [\s]. Dies ist der reguläre Ausdruck für Leerräume wie Leerzeichen, Tabulatoren oder Zeilenumbrüche.

Der Ausdruck definiert die Zeichen, die für das Tokenisieren eines Feldes verwendet werden, und legt die beizubehaltenden Zeichen fest.

[token set] ist eine Liste von Zeichen, die zum automatischen Tokenisieren eines Feldes verwendet werden. Das Tokenisieren bezieht sich auf das Aufbrechen eines Feldes mithilfe von Trennzeichen.

Beispiel

%Tokenize([-\s],[-];

Tokenisiert bei Leerzeichen und Bindestrichen ( - ), wobei der Gedankenstrich ( – ) als Token beibehalten wird.

Anmerkung: %Tokenize folgt den Java RegEx-Syntaxregeln. Verwenden Sie das Backslash-Zeichen „\“, um Open Parser zu zwingen, den Bindestrich und andere Metazeichen als normale Zeichen zu behandeln. Das Bindestrichzeichen (-) kann beispielsweise verwendet werden, um entweder einen wörtlichen Bindestrich oder einen Bereich von Zeichen anzugeben. Wenn Sie den Wert %Tokenize auf [(-)] setzen, interpretiert Open Parser dies als den Zeichenbereich zwischen der geöffneten Klammer „(“ und der schließenden Klammer „)“. Eine vollständige Liste der reservierten Zeichen finden Sie unter Befehlsmetazeichen.

[preserved set] ist die Definition eines regulären Ausdrucks für einen Zeichensatz bestehend aus den Token eines Tokensatzes, die beibehalten werden und in der Liste der Token erscheinen. Wenn z. B. der Tokensatz ein Leerzeichen und Bindestrich beinhaltet und der beibehaltene Satz ein Bindestrich ist, würde „vorher-nachher diesem“ in 4 Token aufgebrochen werden: „vorher“, „-“, „nachher“ und „diesem“.

So verwenden Sie diesen Befehl:

  1. Positionieren Sie den Cursor dort, wo der Befehl eingefügt werden soll.
  2. Doppelklicken Sie in der Liste Befehle auf %Tokenize.
  3. Klicken Sie auf den Pfeil Tokensatz, um einen RegEx-Wert auszuwählen, oder geben Sie Werte in das Textfeld Tokensatz ein.

    Es gibt mehrere vordefinierte RegEx-Tags, mit denen Sie den Tokensatz definieren können. Weitere Informationen finden Sie unter Definieren einer kulturspezifischen Parsing-Grammatik.

  4. Aktivieren Sie optional das Kästchen Beizubehaltende Zeichen.
  5. Klicken Sie auf den Pfeil Beizubehaltende Zeichen des Tokensatzes, und wählen Sie einen Wert aus, oder geben Sie Werte in das Textfeld ein.
  6. Klicken Sie auf OK.