Data Normalization-Modul

Das Data Normalization-Modul prüft Begriffe in einem Datensatz und ermittelt, ob es sich bei dem Begriff um die bevorzugte Form handelt.

Komponenten

Das Data Normalization-Modul setzt sich aus folgenden Komponenten zusammen:

  • Advanced Transformer: In diesem Schritt werden Datenzeichenfolgen durchsucht und in mehrere Felder unterteilt. Dabei werden die extrahierten und nicht extrahierten Daten in einem vorhandenen Feld oder einem neuen Feld platziert.
  • Open Parser: In diesem Schritt werden Ihre Eingabedaten aus vielen Kulturen der Welt mit einer einfachen, aber leistungsstarken Parsing-Grammatik geparst. Mithilfe dieser Grammatik können Sie eine Sequenz von Ausdrücken definieren, die Domänenmuster zum Parsen Ihrer Eingabedaten darstellen. Open Parser sammelt auch statistische Daten und bewertet die Parsing-Vergleiche, um Ihnen bei der Bestimmung der Effektivität Ihrer Parsing-Grammatiken zu helfen.
  • Table Lookup: In diesem Schritt wird ein Begriff ausgewertet und mit einem zuvor überprüften Format dieses Begriffs verglichen. Wenn der Begriff nicht das richtige Format aufweist, wird er durch die Standardversion ersetzt. Table Lookup umfasst das Ändern vollständiger Wörter in Abkürzungen, das Ändern von Abkürzungen in vollständige Wörter, das Ändern von Spitznamen in vollständige Namen oder von Rechtschreibfehlern in die korrigierte Schreibweise.
  • Transliterator: Transliterator konvertiert eine Zeichenfolge zwischen lateinischen und anderen Skripts.