Definieren von RegEx-Tags für eine Kultur

In diesem Thema wird beschrieben, wie beim Definieren einer kulturspezifischen Parsing-Grammatik RegEx-Tags für eine Kultur definiert werden.

Rufen Sie im Enterprise Designer die Optionen Tools > Open Parser Domain Editor auf.
Klicken Sie auf die Registerkarte Kulturen. Auf der Registerkarte Kulturen wird eine Liste der unterstützten Kulturen angezeigt. Eine vollständige Liste der unterstützten Kulturen finden Sie unter Zuweisen einer Parsing-Kultur zu einem Datensatz.
Wählen Sie eine Kultur aus der Liste aus und klicken Sie dann auf Eigenschaften. Das Dialogfeld Kultureigenschaften wird angezeigt.
Klicken Sie auf die Registerkarte Regex-Tags. Die angezeigten Informationen beinhalten die für die ausgewählte Kultur definierten RegEx-Tagnamen sowie die zugeordnete Quellenkultur, den Wert des RegEx-Tags und die Beschreibung.
Klicken Sie auf Hinzufügen oder Ändern.
Geben Sie in das Textfeld Name einen Namen für das RegEx-Tag ein.

Wenn Sie einen Namen eingeben, der in der ausgewählten Kultur bereits vorhanden ist, blinkt ein Warnsymbol. Geben Sie einen anderen Namen ein oder schließen Sie das Dialogfeld, löschen Sie das vorhandene RegEx-Tag und klicken Sie danach erneut auf Hinzufügen.
Geben Sie in das Feld Beschreibung eine Beschreibung des RegEx-Tags ein.
Geben Sie in das Textfeld Wert einen Wert für das RegEx-Tag ein.
Der Wert kann ein beliebiger gültiger regulärer Ausdruck sein, aber keine leere Zeichenfolge.

Domain Editor enthält mehrere vordefinierte RegEx-Tags, die Sie verwenden können, um Kultureigenschaften zu definieren. Sie können diese RegEx-Tags auch verwenden, um Tokenisierungszeichen in Ihrer Parsing-Grammatik zu definieren.

Sie können die vordefinierten RegEx-Tags ändern oder sie kopieren und eigene Varianten erstellen. Sie können auch Überschreibungseigenschaften verwenden, um spezialisierte RegEx-Tags für bestimmte Sprachen zu erstellen.
- Letter: Beliebiger Buchstabe aus beliebiger Sprache. Dieses RegEx-Tag beinhaltet Überschreibungen für mehrere Sprachen aufgrund der unterschiedlichen Schrift, z. B. kyrillische Schrift, asiatisch-sprachige Schriften und thailändische Schrift.
- Lower: Ein Kleinbuchstabe mit einer Großschreibungsvariante.
- Number: Beliebiges numerisches Zeichen in beliebiger Schrift.
- Punctuation: Beliebiges Interpunktionszeichen.
- Upper: Ein Großbuchstabe mit einer Kleinschreibungsvariante.
- Whitespace: Beliebiges Leerzeichen oder unsichtbares Trennzeichen.
Klicken Sie auf OK.