Konfigurieren der Optionen für benutzerdefinierte Entitäten

Dies beinhaltet die Erstellung einer Datei mit Trainingsoptionen, die Informationen zu Ihrem Modell und die beim Training des Modells anzuwendenden Optionen enthält. Diese Datei muss im XML-Format mit UFT-8-Codierung vorliegen. Sie muss folgende Features für Header und das erforderliche Training enthalten:

Header in der Datei mit Trainingsoptionen

Der Header enthält Details zu dem Modell, dem Testpfad und Eingabedateien sowie zum Schlüsselwort für Anmerkungen zu benutzerdefinierten Entitäten.

  • modelName: Name des benutzerdefinierten Modells
  • modelType: Der Typ des benutzerdefinierten Modells (der CustomEntity lautet).
  • modelDescription: Beschreibung des benutzerdefinierten Modells
  • inputFilePath: Pfad der markierten Datei, die zum Trainieren des Modells verwendet wird (Eingabedatei)
  • testFilePath: Pfad der Datei, die zum Testen des Modells verwendet wird
  • magicWord: Schlüsselwort für Anmerkungen zu benutzerdefinierten Entitäten
  • language: Die im Text verwendete Sprache.
    Anmerkung: Englisch wird unterstützt. Niederländisch, Französisch, Deutsch und Spanisch befinden sich in der Beta-Phase.

Trainingsfeatures

Sie können die benutzerdefinierten Entitäten mithilfe der folgenden Trainingsfeatures erstellen.

  • Sprachliche Features: Für die Angabe der Spracheigenschaften
    • POSTagger: Markieren zum Identifizieren von Wortarten, wie z. B. Nomen, Pronomen, Adjektiven und Verben.
      <trainingFeature>             
         <featureName>POSTagger</featureName>
      </trainingFeature>
  • Orthografische Features: Für die Angabe der strukturellen Eigenschaften
    • CaseIdentifier: Gibt an, ob die benutzerdefinierten Entitäten in Großbuchstaben, in Kleinbuchstaben oder in einer Mischung aus beidem geschrieben werden.
      <trainingFeature>
      	<featureName>CaseIdentifier</featureName>
      </trainingFeature>
    • NumericIdentifier: Gibt an, ob die benutzerdefinierten Entitäten numerisch oder alphanumerisch sind.
      <trainingFeature>
      	<featureName>NumericIdentifier</featureName>
      </trainingFeature>
    • 1st2ndIdentifier: Gibt an, ob es sich bei den benutzerdefinierten Entitäten um Ordnungszahlen wie 1., 2. und 3. handelt.
      <trainingFeature>
      	<featureName>1st2ndIdentifier</featureName>
      </trainingFeature>
    • PatternMatcher: Vergleicht Wörter mithilfe von regulären Ausdrücken mit mindestens einem Muster. Wenn mehrere Ausdrücke angegeben sind, wird die Join-Bedingung AND für alle Ausdrücke oder OR (Standard) für einen beliebigen Ausdruck verwendet.
      <trainingFeature>
      	<featureName>PatternMatcher</featureName>
      		<featureParams>
      			<entry>
      				<key>RegEx1</key>
      				<value>b[aeiou]t</value>
      			</entry>
      			<entry>
      				<key>RegEx2</key>
      				<value>b[xyz]t</value>
      			</entry>
      			<entry>
      				<key>JoinCondition</key>
      				<value>AND</value>
      			</entry>
      		</featureParams>
      </trainingFeature>
  • Schlüsselwortfeatures: Zum Definieren der Liste mit Schlüsselwörtern
    • CategoryKeywords: Gibt eine Kategorie für eine Liste mit Schlüsselwörtern an, die zu mehreren benutzerdefinierten Listen gehören. Beispiel: „Wochentage“ in der Liste CategoryKeywords enthält die Schlüsselwörter Montag, Dienstag, Mittwoch, Donnerstag und Freitag.

      Dieses Feature kann optional angeben, ob beim Abgleich die Groß-/Kleinschreibung beachtet werden soll. Bei einer Verwendung lautet der Standard true.

      <trainingFeature>
      	<featureName>CategoryKeywords</featureName>
      	<featureParams>
      		<entry>
      			<key>Weekdays</key> 
                          <!-- List of weekdays -->
      			<value>Monday,Tuesday,Wednesday,Thursday,Friday</value>
      		</entry>
      		<entry>
      			<key>WeekendDays</key>
                          <!-- List of weekend days -->
      			<value>Saturday,Sunday</value>
      		</entry>
      		<entry>
      			<key>CaseSensitive</key>
                          <value>True</value>
      		</entry>
      	</featureParams>
      </trainingFeature>
    • KeyWords: Sucht nach Wörtern, die Sie als zu einer benutzerdefinierten Liste gehörig angegeben haben, z. B. DaysOfWeek oder Month. Gibt zudem optional an, ob beim Abgleich die Groß-/Kleinschreibung beachtet werden soll. Bei einer Verwendung lautet der Standard „true“.
      <trainingFeature>
      	<featureName>KeyWords</featureName>
      	<featureParams>
      		<entry>
      			<key>KeyWordList</key>
      			<value>Monday,Tuesday</value>
      		</entry>
      		<entry>
      			<key>CaseSensitive</key>
      			<value>False</value>
      		</entry>
      	</featureParams>
      </trainingFeature>
    • Substring: Extrahiert eine Teilzeichenfolge wie in den Parametern angegeben. Kann auch zum Extrahieren von Präfixen und Suffixen verwendet werden.
      • StartLocation: Links oder rechts. Position, an der die Teilzeichenfolge extrahiert werden soll. Der Standard ist Links.
      • StartPosition: Startposition der Teilzeichenfolge. Der Standardwert ist 0.
      • EndPosition: Endposition der Teilzeichenfolge. Der Standardwert ist 3.
      • MinLength: Minimale Länge des Worts, auf das dieses Feature angewendet werden soll. Der Standardwert ist 3.
      <trainingFeature>
      	<featureName>Substring</featureName>
      		<featureParams>
      			<entry>
      				<key>StartLocation</key>
      			</entry>
      			<entry>
      				<key>StartPosition</key>
      				<value>1</value>
      			</entry>
      			<entry>
      				<key>EndPosition</key>
      				<value>4</value>
      			</entry>
      			<entry>
      				<key>MinLength</key>
      		</featureParams>
      </trainingFeature>
  • Lexikalische Features: Für die Angabe der Eigenschaften von Lexemen
    • FeatureWindow: Gibt das Fenster für die Featuregenerierung an
      <trainingFeature>
      	<featureName>FeatureWindow</featureName>
      	<!-- Number of preceding tokens used to create the feature set. Default is 3 -->
      		<entry>
      			<key>Before</key>
      			<value>1</value>
      		</entry>
      	<!-- Number of succeeding tokens used to create the feature set. Default is 3 -->
      		<entry>
      			<key>After</key>
      			<value>2</value>
      		</entry>
      </trainingFeature>
      
Unten finden Sie eine vollständige Beispieldatei mit Trainingsoptionen für benutzerdefinierte Entitäten:
<trainingOptions>
	<modelName>CustomModel</modelName>
	<modelType>CustomEntity</modelType>
	<modelDescription>CustomDiagnosesModel</modelDescription>
	<inputFilePath>C:/SpectrumIE/custom_model/Custom_Input.csv</inputFilePath>
	<testFilePath>C:/SpectrumIE/custom_model/Custom_Test.txt</testFilePath>
       <magicWord>DIAGNOSIS</magicWord>
       <language>English</language>
	
      <trainingFeatures>
	
	<!-- Lexical features-->
	<trainingFeature>
		<featureName>FeatureWindow</featureName>
		<featureParams>
			<entry>
				<key>Before</key>
				<value>1</value>
			</entry>
			<entry>
				<key>After</key>
				<value>2</value>
			</entry>
		</featureParams>
	</trainingFeature>

	<!-- Orthographic features-->
	<trainingFeature>
		<featureName>CaseIdentifier</featureName>
      </trainingFeature>

	<trainingFeature>
		<featureName>NumericIdentifier</featureName>
	</trainingFeature>
	</trainingFeatures>
 </trainingOptions>