Configuration des options des entités personnalisées

Cela implique la création d'un fichier Options de formation contenant des informations sur votre modèle et les options à appliquer pour la formation du modèle. Ce fichier doit être au format XML avec un codage UFT-8 et inclure les fonctions de formation requises et l'en-tête suivants :

En-tête du fichier Options de formation

L'en-tête mentionne des détails sur le modèle, le chemin d’accès aux fichiers de test et d'entrée et le mot clé d'annotation des entités personnalisées.

  • modelName : nom du modèle personnalisé
  • modelType : type du modèle personnalisé (c'est-à-dire CustomEntity).
  • modelDescription : description du modèle personnalisé
  • inputFilePath : chemin d'accès au fichier balisé utilisé pour la formation du modèle (fichier d’entrée)
  • testFilePath : chemin d'accès au fichier utilisé pour tester le modèle
  • magicWord : mot clé utilisé pour annoter les entités personnalisées
  • language : langue utilisée dans le texte.
    Remarque : L'anglais est pris en charge. L'allemand, l'espagnol, le français et le néerlandais sont en phase bêta.

Fonctions de formation

Vous pouvez utiliser ces fonctions de formation pour créer des entités personnalisées.

  • Linguistic features : pour spécifier les propriétés de langue
    • POSTagger : balisage pour identifier des parties du texte, comme des noms, des pronoms, des adjectifs et des verbes.
      <trainingFeature>             
         <featureName>POSTagger</featureName>
      </trainingFeature>
  • Orthographic features : pour spécifier les propriétés structurelles
    • CaseIdentifier : détermine si les entités personnalisées sont tout en majuscules, en minuscules, ou en une combinaison des deux.
      <trainingFeature>
      	<featureName>CaseIdentifier</featureName>
      </trainingFeature>
    • NumericIdentifier : détermine si les entités personnalisées sont numériques ou alphanumériques.
      <trainingFeature>
      	<featureName>NumericIdentifier</featureName>
      </trainingFeature>
    • 1st2ndIdentifier : détermine si les entités personnalisées sont des nombres ordinaux tels que 1er, 2e, 3e, etc.
      <trainingFeature>
      	<featureName>1st2ndIdentifier</featureName>
      </trainingFeature>
    • PatternMatcher : met des termes en correspondance par rapport à un ou plusieurs modèles via des expressions régulières. Lorsque plusieurs expressions sont fournies, inclut la condition de jointure AND pour toutes les expressions ou OR (valeur par défaut) pour toute expression.
      <trainingFeature>
      	<featureName>PatternMatcher</featureName>
      		<featureParams>
      			<entry>
      				<key>RegEx1</key>
      				<value>b[aeiou]t</value>
      			</entry>
      			<entry>
      				<key>RegEx2</key>
      				<value>b[xyz]t</value>
      			</entry>
      			<entry>
      				<key>JoinCondition</key>
      				<value>AND</value>
      			</entry>
      		</featureParams>
      </trainingFeature>
  • Keyword features : pour définir la liste des mots clés
    • CategoryKeywords : identifie une catégorie pour une liste de mots clés appartenant à différentes listes personnalisées. Par exemple, Weekdays de la liste CategoryKeywords contient les mots clés Monday, Tuesday, Wednesday, Thursday et Friday.

      Cette fonction peut éventuellement spécifier si la correspondance doit être sensible à la casse. Si cela est utilisé, la valeur par défaut est true.

      <trainingFeature>
      	<featureName>CategoryKeywords</featureName>
      	<featureParams>
      		<entry>
      			<key>Weekdays</key> 
                          <!-- List of weekdays -->
      			<value>Monday,Tuesday,Wednesday,Thursday,Friday</value>
      		</entry>
      		<entry>
      			<key>WeekendDays</key>
                          <!-- List of weekend days -->
      			<value>Saturday,Sunday</value>
      		</entry>
      		<entry>
      			<key>CaseSensitive</key>
                          <value>True</value>
      		</entry>
      	</featureParams>
      </trainingFeature>
    • KeyWords : recherche les termes que vous avez spécifiés comme appartenant à une liste personnalisée, comme DaysOfWeek ou Month. Peut également éventuellement indiquer si la correspondance doit être sensible à la casse ; si cette option est utilisée, la valeur par défaut est true.
      <trainingFeature>
      	<featureName>KeyWords</featureName>
      	<featureParams>
      		<entry>
      			<key>KeyWordList</key>
      			<value>Monday,Tuesday</value>
      		</entry>
      		<entry>
      			<key>CaseSensitive</key>
      			<value>False</value>
      		</entry>
      	</featureParams>
      </trainingFeature>
    • Substring : extrait une partie d'une chaîne tel que spécifié dans les paramètres. Peut également être utilisé pour l'extraction de préfixe et de suffixe.
      • StartLocation : à gauche ou à droite. Position d'extraction de la sous-chaîne. La valeur par défaut est Left.
      • StartPosition : position de départ de la sous-chaîne. La valeur par défaut est 0.
      • EndPosition : position d'arrivée de la sous-chaîne. La valeur par défaut est 3.
      • MinLength : longueur minimale du terme auquel cette fonction doit s'appliquer. La valeur par défaut est 3.
      <trainingFeature>
      	<featureName>Substring</featureName>
      		<featureParams>
      			<entry>
      				<key>StartLocation</key>
      			</entry>
      			<entry>
      				<key>StartPosition</key>
      				<value>1</value>
      			</entry>
      			<entry>
      				<key>EndPosition</key>
      				<value>4</value>
      			</entry>
      			<entry>
      				<key>MinLength</key>
      		</featureParams>
      </trainingFeature>
  • Lexical Features : pour spécifier les propriétés des lexèmes
    • FeatureWindow : indique la fenêtre de génération de la fonction
      <trainingFeature>
      	<featureName>FeatureWindow</featureName>
      	<!-- Number of preceding tokens used to create the feature set. Default is 3 -->
      		<entry>
      			<key>Before</key>
      			<value>1</value>
      		</entry>
      	<!-- Number of succeeding tokens used to create the feature set. Default is 3 -->
      		<entry>
      			<key>After</key>
      			<value>2</value>
      		</entry>
      </trainingFeature>
      
Voici un exemple complet de fichier d'options de formation d'entités personnalisées :
<trainingOptions>
	<modelName>CustomModel</modelName>
	<modelType>CustomEntity</modelType>
	<modelDescription>CustomDiagnosesModel</modelDescription>
	<inputFilePath>C:/SpectrumIE/custom_model/Custom_Input.csv</inputFilePath>
	<testFilePath>C:/SpectrumIE/custom_model/Custom_Test.txt</testFilePath>
       <magicWord>DIAGNOSIS</magicWord>
       <language>English</language>
	
      <trainingFeatures>
	
	<!-- Lexical features-->
	<trainingFeature>
		<featureName>FeatureWindow</featureName>
		<featureParams>
			<entry>
				<key>Before</key>
				<value>1</value>
			</entry>
			<entry>
				<key>After</key>
				<value>2</value>
			</entry>
		</featureParams>
	</trainingFeature>

	<!-- Orthographic features-->
	<trainingFeature>
		<featureName>CaseIdentifier</featureName>
      </trainingFeature>

	<trainingFeature>
		<featureName>NumericIdentifier</featureName>
	</trainingFeature>
	</trainingFeatures>
 </trainingOptions>