Erstellen einer Vergleichsregel

Vergleichsregeln werden in „Interflow Match“, „Intraflow Match“ und „Transactional Match“ verwendet, um die Kriterien zu definieren, die bestimmen, ob ein Datensatz mit einem anderen übereinstimmt. Vergleichsregeln geben an, welche Felder wie verglichen werden sollen. Darüber hinaus definieren sie eine Hierarchie von Vergleichen, um komplexe Regeln für Vergleiche zu ermöglichen.

Sie können Vergleichsregeln in „Interflow Match“, „Intraflow Match“ und „Transactional Match“ erstellen. Sie können Vergleichsregeln auch im Tool „Vergleichsregelverwaltung“ des Enterprise Designer erstellen. Beim Erstellen einer Regel im Tool „Vergleichsregelverwaltung“ wird die Regel zur Verwendung in einem beliebigen Datenfluss sowie auch für andere Benutzer verfügbar. Beim Erstellen einer Vergleichsregel in einem der vier Vergleichsschritte wird die Regel nur für den betreffenden Schritt verfügbar, außer Sie speichern sie durch Klicken auf die Schaltfläche Speichern, wodurch sie auch für andere Schritte und Benutzer verfügbar wird.

  1. Öffnen Sie den Enterprise Designer.
  2. Führen Sie eine der folgenden Aktionen aus:
    • Wenn Sie eine Vergleichsregel in „Interflow Match“, „Intraflow Match“ oder „Transactional Match“ definieren möchten, doppelklicken Sie auf den Vergleichsschritt, für den Sie eine Vergleichsregel definieren möchten. Wählen Sie im Feld Vergleichsregel laden eine vordefinierte Vergleichsregel als Ausgangspunkt. Wenn Sie mit einer leeren Vergleichsregel beginnen möchten, klicken Sie auf Neu.
    • Wenn Sie eine Vergleichsregel im Tool „Vergleichsregelverwaltung“ definieren möchten, wählen Sie Tools > Vergleichsregelverwaltung aus. Wenn Sie eine vorhandene Regel als Ausgangspunkt für Ihre Regel verwenden möchten, aktivieren Sie das Kästchen Kopieren von und wählen Sie die gewünschte Regel aus.
  3. Geben Sie die Datenflussfelder an, die Sie in der Vergleichsregel verwenden möchten, und ebenso die Vergleichsregelhierarchie.
    1. Klicken Sie auf Übergeordnetes Element hinzufügen.
    2. Geben Sie einen Namen für das übergeordnete Element ein. Der Name muss eindeutig sein, und es darf kein Feld sein. Das erste übergeordnete Element in der Hierarchie wird als Vergleichsregelname im Feld Vergleichsregel laden verwendet. Alle benutzerdefinierten Vergleichsregeln, die Sie erstellen, und alle vordefinierten Regeln, die Sie ändern, werden mit „Benutzerdefiniert“ als Präfix vor dem Namen gespeichert.
    3. Klicken Sie auf Untergeordnetes Element hinzufügen. Ein Dropdown-Menü wird in der Regelhierarchie angezeigt. Wählen Sie ein Feld aus, das dem übergeordneten Element hinzugefügt werden soll.
      Anmerkung: Alle untergeordneten Elemente unter einem übergeordneten Element müssen denselben logischen Operator verwenden. Wenn Sie andere logische Operatoren zwischen Feldern verwenden möchten, müssen Sie zuerst temporäre übergeordnete Elemente erstellen.
    4. Wiederholen Sie diese Schritte, um Ihre Vergleichshierarchie abzuschließen.
  4. Übergeordnete Optionen definieren Übergeordnete Optionen werden rechts von der Regelhierarchie angezeigt, wenn ein übergeordneter Knoten ausgewählt wird.
    1. Klicken Sie auf Übereinstimmung, wenn nicht wahr, um den logischen Operator für das übergeordnete Element von AND in AND NOT zu ändern. Wenn Sie diese Option auswählen, stimmen Datensätze nur überein, wenn sie der in diesem übergeordneten Element definierten Logik nicht entsprechen.
      Anmerkung: Die Aktivierung der Option Übereinstimmung, wenn nicht wahr hat den Effekt, dass die Optionen von Vergleichsmethode negiert werden. Weitere Informationen finden Sie unter Negative Vergleichsbedingungen.
    2. Geben Sie im Feld Vergleichsmethode an, wie ermittelt werden soll, ob ein übergeordnetes Element eine Übereinstimmung oder keine Übereinstimmung ist. Zur Auswahl stehen:
      Alle Übereinstimmungen
      Ein übergeordnetes Element wird als eine Übereinstimmung gewertet, wenn alle untergeordneten Elemente als übereinstimmend erkannt werden. Über diese Methode wird eine AND-Verbindungsstraße zwischen den untergeordneten Elementen erstellt.
      Beliebige Übereinstimmung
      Ein übergeordnetes Element wird als eine Übereinstimmung gewertet, wenn mindestens ein untergeordnetes Element als übereinstimmend erkannt wird. Über diese Methode wird eine OR-Verbindungsstraße zwischen den untergeordneten Elementen erstellt.
      Basierend auf Schwellenwert
      Ein übergeordnetes Element wird als Übereinstimmung gewertet, wenn die Punktzahl des übergeordneten Elements größer oder gleich dem Schwellenwert des übergeordneten Elements ist. Wenn Sie diese Option auswählen, wird der Schieberegler Schwellenwert angezeigt. Verwenden Sie diesen Schieberegler, um einen Schwellenwert anzugeben. Die Bewertungsmethode bestimmt, welche logische Verbindung verwendet wird. Schwellenwerte übergeordneter Elemente können nicht größer sein als die der untergeordneten Elemente.
      Anmerkung: Der hier festgelegte Schwellenwert kann zur Laufzeit im Dialogfeld „Datenflussoptionen“ überschrieben werden. Rufen Sie Bearbeiten > Datenflussoptionen auf und klicken Sie auf Hinzufügen. Erweitern Sie den Schritt, klicken Sie auf Schwellenwert für übergeordnetes Element und geben Sie den Schwellenwert in das Feld Standardwert ein.
    3. Geben Sie im Feld Fehlende Daten an, wie leere Daten in einem Feld bewertet werden sollen. Zur Auswahl stehen:
      Leerzeichen ignorieren
      Ignoriert das Feld, wenn es leere Daten enthält.
      Als 0 zählen
      Bewertet das Feld mit 0, wenn es leere Daten enthält.
      Als 100 zählen
      Bewertet das Feld mit 100, wenn es leere Daten enthält.
      Leerzeichen vergleichen

      Bewertet die Kopfdubletten- und Kandidatenfelder mit 100, wenn beide leere Daten enthalten; bewertet andernfalls die Kopfdubletten- und Kandidatenfelder mit 0.

    4. Wählen Sie im Feld Bewertungsmethode die Methode aus, die verwendet wird, um die Punktzahl für die Übereinstimmung zu ermitteln. Zur Auswahl stehen:
      Gewichteter Mittelwert
      Verwendet die Gewichtung jedes untergeordneten Elements, um die durchschnittliche Punktzahl für die Übereinstimmung zu bestimmen.
      Durchschnitt
      Verwendet die durchschnittliche Punktzahl von jedem untergeordneten Element, um die Punktzahl eines übergeordneten Elements zu bestimmen.
      Maximum
      Verwendet die höchste Punktzahl untergeordneter Elemente, um die Punktzahl eines übergeordneten Elements zu bestimmen.
      Minimum
      Verwendet die niedrigste Punktzahl untergeordneter Elemente, um die Punktzahl eines übergeordneten Elements zu bestimmen.
      Vektoraddition
      Verwendet die Vektoraddition der Punktzahlen aller untergeordneten Elemente, um die Punktzahl des übergeordneten Elements zu bestimmen. Die Formel zur Berechnung ist:

      sqrt(a^2 + b^2 + c^2) / sqrt(n). Datei gilt: a, b und c sind die Punktzahlen von drei untergeordneten Elementen, und n ist die Anzahl der untergeordneten Elemente.

      Die folgende Tabelle zeigt die logische Beziehung zwischen Vergleichsmethoden und Bewertungsmethoden und wie sich durch jede Kombination die bei der Vergleichsverarbeitung verwendete Logik ändert.

      Tabelle 1. Matrix Vergleichsmethode zu Bewertungsmethode
      Bewertungsmethode Vergleichsmethode Anmerkungen
      Beliebige Übereinstimmung Alle Übereinstimmungen Basierend auf Schwellenwert
      Gewichteter Mittelwert nicht verfügbar AND AND Nur verfügbar, wenn „Alle Übereinstimmungen“ oder „Basierend auf Schwellenwert“ als Vergleichsmethode ausgewählt wird.
      Durchschnitt nicht verfügbar AND AND
      Vektoraddition nicht verfügbar AND AND
      Maximum OR nicht verfügbar OR Nur verfügbar, wenn „Beliebige Übereinstimmung“ oder „Basierend auf Schwellenwert“ als Vergleichsmethode ausgewählt wird.
      Minimum OR nicht verfügbar OR
  5. Definieren Sie untergeordnete Optionen. Untergeordnete Optionen werden rechts von der Regelhierarchie angezeigt, wenn ein untergeordnetes Element ausgewählt wird.
    1. Aktivieren Sie die Option Kandidatenfeld, um den ausgewählten untergeordneten Datensatz einem Feld in der Eingabedatei zuzuordnen.
    2. Aktivieren Sie die Option Kreuzprobe mit und wählen Sie ein oder mehr Elemente aus der Dropdown-Liste aus, um unterschiedliche Felder zwischen zwei Datensätzen miteinander zu vergleichen. Wenn Sie das Tool „Vergleichsregelverwaltung“ verwenden, um eine Vergleichsregel zu erstellen oder zu bearbeiten, wird keine Dropdown-Liste angezeigt. Stattdessen müssen Sie dann jeden Feldnamen, getrennt durch Kommas, eingeben.
    3. Klicken Sie auf Übereinstimmung, wenn nicht wahr, um den logischen Operator von AND in NOT zu ändern. Wenn Sie diese Option auswählen, wird die Vergleichsregel nur als wahr ausgewertet, wenn die Datensätze nicht mit der in diesem untergeordneten Element definierten Logik übereinstimmen.

      Wenn Sie beispielsweise Personen identifizieren möchten, die mehreren Konten zugeordnet sind, könnten Sie eine Vergleichsregel erstellen, die einen Vergleich anhand des Namens durchführt, nicht aber anhand der Kontonummer. Sie würden die Option Übereinstimmung, wenn nicht wahr für das untergeordnete Element verwenden, das mit der Kontonummer übereinstimmt.

    4. Geben Sie im Feld Fehlende Daten an, wie leere Daten in einem Feld bewertet werden sollen. Zur Auswahl stehen:
      Leerzeichen ignorieren
      Ignoriert das Feld, wenn es leere Daten enthält.
      Als 0 zählen
      Bewertet das Feld mit 0, wenn es leere Daten enthält.
      Als 100 zählen
      Bewertet das Feld mit 100, wenn es leere Daten enthält.
      Leerzeichen vergleichen

      Bewertet die Kopfdubletten- und Kandidatenfelder mit 100, wenn beide leere Daten enthalten; bewertet andernfalls die Kopfdubletten- und Kandidatenfelder mit 0.

    5. Geben Sie im Feld Schwellenwert den Schwellenwert an, der auf Einzelfeldebene erfüllt sein muss, damit dieses Feld als Übereinstimmung erkannt wird.
    6. Wählen Sie im Feld Bewertungsmethode die Methode aus, die verwendet wird, um die Punktzahl für die Übereinstimmung zu ermitteln. Zur Auswahl stehen:
      Gewichteter Mittelwert
      Verwendet die Gewichtung jedes Algorithmus, um die durchschnittliche Punktzahl für die Übereinstimmung zu bestimmen.
      Durchschnitt
      Verwendet die durchschnittliche Punktzahl jedes Algorithmus, um die Punktzahl für die Übereinstimmung zu bestimmen.
      Maximum
      Verwendet die höchste Algorithmuspunktzahl, um die Punktzahl für die Übereinstimmung zu bestimmen.
      Minimum
      Verwendet die niedrigste Algorithmuspunktzahl, um die Punktzahl für die Übereinstimmung zu bestimmen.
      Vektoraddition
      Verwendet die Vektoraddition der Punktzahl jedes Algorithmus, um die Punktzahl für die Übereinstimmung zu bestimmen. Diese Bewertungsmethode ist nützlich, wenn Sie möchten, dass eine höhere Punktzahl für die Übereinstimmung in einem oder mehr Algorithmen in der endgültigen Punktzahl für die Übereinstimmung proportional dargestellt wird. Die zur Berechnung der endgültigen Punktzahl verwendete Formel ist:

      sqrt(a^2 + b^2 + c^2) / sqrt(n). Datei gilt: a, b und c sind die Punktzahlen von drei verschiedenen Algorithmen, und n ist die Anzahl der verwendeten Algorithmen.

    7. Wählen Sie einen oder mehr Algorithmen, die verwendet werden sollen, um zu ermitteln, ob die Werte im Feld übereinstimmen. Die folgenden Optionen stehen zur Auswahl:
      Akronym
      Bestimmt, ob ein Unternehmensname mit dem zugehörigen Akronym übereinstimmt, indem nach Akronymdaten gesucht wird; andernfalls wird anhand des ersten Zeichens jedes Wortes ein Akronym erstellt. Beispiel: Internal Revenue Service und das zugehörige Akronym IRS würden als Übereinstimmung gewertet und eine Punktzahl für die Übereinstimmung von 100 zurückgeben.
      Zeichenhäufigkeit
      Bestimmt die Häufigkeit, mit der jedes Zeichen in einer Zeichenfolge vorkommt, und vergleicht die Gesamthäufigkeit zwischen zwei Zeichenfolgen.
      Daitch-Mokotoff Soundex
      Phonetischer Algorithmus, der eine höhere Genauigkeit beim Vergleich germanischer, slawischer und jiddischer Nachnamen mit ähnlicher Aussprache, aber unterschiedlicher Schreibweise ermöglicht. Codierte Namen sind sechs Stellen lang, und es können mehrere mögliche Codierungen für einen einzelnen Namen zurückgegeben werden. Diese Option wurde entwickelt, um auf Einschränkungen von Soundex bei der Verarbeitung von germanischen oder slawischen Nachnamen zu reagieren.
      Date
      Vergleicht Datumsfelder unabhängig vom Datumsformat in den Eingabedatensätzen. Klicken Sie in der Spalte „Optionen“ auf „Bearbeiten“, um Folgendes anzugeben:
      • Monat erforderlich: Verhindert, dass ein Datum, das nur aus einem Jahr besteht, übereinstimmt.
      • Tag erforderlich: Verhindert, dass ein Datum, das nur aus einem Monat und Jahr besteht, übereinstimmt.
      • Mit transponiertem MM/TT vergleichen: Wenn Monat und Tag im numerischen Format bereitgestellt werden, werden Kopfdublettenmonat mit Kandidatentag und Kopfdublettentag mit Kandidatenmonat verglichen sowie der Standardvergleich von Kopfdublettenmonat mit Kandidatenmonat und Kopfdublettentag mit Kandidatentag durchgeführt.
      • Format TT/MM/JJJJ vor MM/TT/JJJJ bevorzugen: Trägt zum Parsen von Datumswerten bei, bei denen sowohl Monat als auch Tag im numerischen Format bereitgestellt werden und die anhand des Kontexts nicht identifiziert werden können. Beispiel: Bei den Zahlen 5 und 13 ordnet der Parser automatisch 5 dem Monat und 13 dem Tag zu, weil es nur 12 Monate im Jahr gibt. Aber bei den Zahlen 5 und 12 (bzw. zwei beliebigen Zahlen kleiner oder gleich 12) nimmt der Parser an, dass die erste Zahl der Monat ist. Durch Aktivieren dieser Option wird sichergestellt, dass der Parser die erste Zahl als Tag und nicht als Monat liest.
      • Bereichsoptionen – Insgesamt: Ermöglicht Ihnen, die maximale Anzahl von Tagen zwischen übereinstimmenden Daten festzulegen. Beispiel: Wenn Sie einen Gesamtbereich von 35 Tagen eingeben und Ihr Kandidatendatum am 31. Dezember 2000 ist, wäre das Kopfdublettendatum 5. Februar 2001 eine Übereinstimmung, das Kopfdublettendatum 6. Februar hingegen nicht. Wenn Sie einen Gesamtbereich von 1 Tag eingeben und Ihr Kandidatendatum Januar 2000 ist, wäre das Kopfdublettendatum 1999 eine Übereinstimmung (Vergleich mit 31. Dezember 1999), das Kopfdublettendatum 2001 hingegen nicht.
      • Bereichsoptionen – Jahr: Ermöglicht Ihnen, die Anzahl von Jahren zwischen übereinstimmenden Daten, unabhängig von Monat und Tag, festzulegen. Beispiel: Wenn Sie einen Jahresbereich von 3 eingeben und Ihr Kandidatendatum 31. Januar 2000 ist, wäre das Kopfdublettendatum 31. Januar 2003 eine Übereinstimmung, das Kopfdublettendatum Februar 2003 hingegen nicht. Ähnlich gilt: Wenn Ihr Kandidatendatum 2000 ist, wäre das Kopfdublettendatum März 2003 eine Übereinstimmung, weil die Monate keinen Konflikt verursachen und es innerhalb des Dreijahresbereichs liegt.
      • Bereichsoptionen – Monat: Ermöglicht Ihnen, die Anzahl von Monaten zwischen übereinstimmenden Daten, unabhängig von Jahr und Tag, festzulegen. Beispiel: Wenn Sie einen Monatsbereich von 4 eingeben und Ihr Kandidatendatum 1. Januar 2000 ist, wäre das Kopfdublettendatum Mai 2000 eine Übereinstimmung, weil die Tage keinen Konflikt verursachen und es innerhalb des Viermonatsbereichs liegt, das Kopfdublettendatum 2. Mai 2000 hingegen nicht, weil die Tage einen Konflikt verursachen.
      • Bereichsoptionen – Tag: Ermöglicht Ihnen, die Anzahl von Tagen zwischen übereinstimmenden Daten, unabhängig von Jahr und Monat, festzulegen. Beispiel: Wenn Sie einen Tagesbereich von 5 eingeben und Ihr Kandidatendatum 1. Januar 2000 ist, wäre das Kopfdublettendatum Januar 2000 eine Übereinstimmung, weil die Tage keinen Konflikt verursachen, das Kopfdublettendatum 27. Dezember 1999 hingegen nicht, weil die Monate einen Konflikt verursachen.
      Double Metaphone
      Bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen auf Grundlage einer phonetischen Darstellung ihrer Zeichen. „Double Metaphone“ ist eine verbesserte Version des Algorithmus „Metaphone“ und versucht, viele der in unterschiedlichen Sprachen vorkommenden Unregelmäßigkeiten zu berücksichtigen.
      Entfernung bearbeiten
      Bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen anhand der Anzahl der Löschungen, Einfügungen oder Ersetzungen, die zum Transformieren einer Zeichenfolge in eine andere erforderlich sind.
      Euklidischer Abstand
      Bietet ein Maß der Ähnlichkeit zwischen zwei Zeichenfolgen unter Verwendung des Vektorraums kombinierter Begriffe als Dimensionen. Er bestimmt auch den größten gemeinsamen Teiler von zwei Ganzzahlen. Er akzeptiert ein Paar positiver Ganzzahlen und bildet ein neues Paar, das aus der kleineren Zahl und der Differenz zwischen der größeren und der kleineren Zahl besteht. Der Prozess wird wiederholt, bis die Zahlen gleich sind. Diese Zahl ist dann der größte allgemeine Teiler des ursprünglichen Paares. Beispiel: 21 ist der größte gemeinsame Teiler von 252 und 105: (252 = 12 × 21; 105 = 5 × 21); da 252 − 105 = (12 − 5) × 21 = 147, ist der ggT von 147 und 105 ebenfalls 21.
      Genaue Übereinstimmung
      Bestimmt, ob zwei Zeichenfolgen identisch sind.
      Initialen
      Dient dazu, die Ähnlichkeit geparster Personennamen zu vergleichen.
      Jaro–Winkler-Abstand
      Bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen anhand der Anzahl der Zeichenersetzungen, die zum Transformieren einer Zeichenfolge in eine andere erforderlich sind. Diese Option wurde für kurze Zeichenfolgen wie Personennamen entwickelt.
      Abstand auf Tastatur
      Bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen basierend auf der Anzahl der Löschungen, Einfügungen oder Ersetzungen, die erforderlich sind, um eine Zeichenfolge in eine andere zu transformieren. Dabei erfolgt eine Gewichtung entsprechend der Position der Tasten auf der Tastatur. Klicken Sie in der Spalte „Optionen“ auf „Bearbeiten“, um den Typ der verwendeten Tastatur anzugeben: QWERTY (Vereinigte Staaten). QWERTZ (Österreich und Deutschland) oder AZERTY (Frankreich).
      Köln
      Indiziert Namen nach Klang, so wie sie auf Deutsch ausgesprochen werden. Ermöglicht die Codierung von Namen mit derselben Aussprache in derselben Darstellung, sodass sie trotz kleiner Unterschiede bei der Schreibwiese verglichen werden können. Das Ergebnis ist immer eine Folge von Zahlen; Sonderzeichen und Leerzeichen werden ignoriert. Diese Option wurde entwickelt, um auf Einschränkungen von Soundex zu reagieren.
      Kullback-Liebler-Abstand
      Bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen basierend auf den Unterschieden in der Verteilung der Wörter in den beiden Zeichenfolgen.
      Metaphone
      Bestimmt die Ähnlichkeit zwischen zwei englischen Zeichenfolgen auf Grundlage einer phonetischen Darstellung ihrer Zeichen. Diese Option wurde entwickelt, um auf Einschränkungen von Soundex zu reagieren.
      Metaphone (Spanisch)
      Bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen auf Grundlage einer phonetischen Darstellung ihrer Zeichen. Diese Option wurde entwickelt, um auf Einschränkungen von Soundex zu reagieren.
      Metaphone 3
      Übertrifft die Algorithmen „Metaphone“ und „Double Metaphone“ mit genaueren Einstellungen für Konsonanten und inneren Vokalen, was Ihnen ermöglicht, Wörter oder Namen auf phonetischer Basis mehr oder weniger eng mit Suchbegriffen abgeglichen zu erzeugen. Metaphone 3 erhöht die Genauigkeit der phonetischen Codierung auf 98 %. Diese Option wurde entwickelt, um auf Einschränkungen von Soundex zu reagieren.
      Namensvariante
      Bestimmt, ob zwei Namen Varianten voneinander sind. Der Algorithmus gibt eine Punktzahl für die Übereinstimmung von 100 zurück, wenn zwei Namen Varianten voneinander sind, und eine Punktzahl für die Übereinstimmung von 0, wenn zwei Namen keine Varianten voneinander sind. So ist beispielsweise JOHN eine Variante von JAKE und liefert eine Punktzahl für die Übereinstimmung von 100. JOHN ist keine Variante von HENRY und liefert eine Punktzahl für die Übereinstimmung von 0. Klicken Sie in der Spalte „Optionen“ auf Bearbeiten, um Optionen für Namensvarianten auszuwählen. Weitere Informationen finden Sie unter Name Variant Finder.
      N-Gramm-Abstand

      Berechnet die Wahrscheinlichkeit des nächsten Begriffs in Text oder Sprache basierend auf n vorherigen Begriffen. Diese können Phoneme, Silben, Buchstaben, Wörter oder Basispaare umfassen und aus einer beliebigen Buchstabenkombination bestehen. Dieser Algorithmus beinhaltet eine Option, um die Größe des N-Gramms einzugeben; der Standardwert ist 2.

      N-Gramm-Ähnlichkeit

      Bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen basierend auf der Länge der längsten gemeinsamen Teilfolge von Phonemen, Silben, Buchstaben, Wörtern oder Basispaaren.

      Der Algorithmus beinhaltet die folgenden Optionen:

      • N-Gramm-Größe: Geben Sie die Größe des N-Gramms ein. Der Standardwert ist 2.
      • Sonderzeichen entfernen: Aktivieren Sie das Kästchen, um die Interpunktion durch Leerzeichen zu ersetzen.
      • Leerzeichen entfernen: Aktivieren Sie das Kästchen, um Wörter zusammenzuführen.
      Numerische Zeichenfolge
      Vergleicht Adresszeilen durch Trennen der numerischen Attribute einer Adresszeile von den Buchstaben. Beispiel: In der Zeichenfolgenadresse 1234 Main Street Apt 567 werden die numerischen Attribute der Zeichenfolge (1234567) geparst und anders als der restliche Zeichenfolgenwert (Main Street Apt) behandelt. Der Algorithmus vergleicht zuerst die numerischen Daten in der Zeichenfolge mit dem numerischen Algorithmus. Falls die Übereinstimmung für numerische Daten 100 ist, werden die alphabetischen Daten anhand von „Entfernung bearbeiten“ und „Zeichenhäufigkeit“ verglichen. Die endgültige Punktzahl für die Übereinstimmung wird wie folgt berechnet:

      (numericScore + (EditDistanceScore + CharacterFrequencyScore) / 2) / 2

      So ist beispielsweise die Punktzahl für die Übereinstimmung dieser zwei Adressen 95,5, die wie folgt berechnet wird:

      123 Main St Apt 567
      123 Maon St Apt 567

      Numerische Punktzahl = 100
      Entfernung bearbeiten = 91
      Zeichenhäufigkeit = 91

      91 + 91 = 182
      182/2 = 91
      100 + 91 = 191
      191/2 = 95,5

      NYSIIS
      Phonetischer Codealgorithmus, der eine ungefähr übereinstimmende Aussprache mit der exakten Schreibweise vergleicht und Wörter indiziert, deren Aussprache ähnlich ist. Bestandteil des New York State Identification and Intelligence System. Angenommen, Sie suchen die Daten einer Person in einer Personendatenbank. Sie meinen, dass der Name der Person wie „John Smith“ klingt, er wird aber „Jon Smath“ geschrieben. Würden Sie eine Suche durchführen, in der nach einer genauen Übereinstimmung mit „John Smith“ gesucht wird, würden keine Ergebnisse zurückgegeben. Wenn Sie jedoch die Datenbank mit dem Algorithmus NYSIIS indizieren und eine erneute Suche mit dem Algorithmus NYSIIS durchführen, wird die richtige Übereinstimmung zurückgegeben, weil vom Algorithmus sowohl „John Smith“ als auch „Jon Smath“ als „JANSNATH“ indiziert werden. Diese Option wurde entwickelt, um auf Einschränkungen von Soundex zu reagieren; sie verarbeitet manche N-Gramme mit mehreren Zeichen und behält die relativen Vokalpositionen bei, was bei Soundex nicht der Fall ist.
      Anmerkung: Dieser Algorithmus verarbeitet keine nicht alphanumerischen Zeichen; Datensätze, die solche enthalten, schlagen bei der Verarbeitung fehl.
      Phonix
      Vorverarbeitet Namenszeichenfolgen, indem mehr als 100 Transformationsregeln auf einzelne Zeichen oder auf Zeichenfolgen angewendet werden. 19 dieser Regeln werden nur angewendet, wenn das bzw. die Zeichen am Anfang der Zeichenfolge stehen, während 12 der Regeln nur angewendet werden, wenn sie in der Mitte der Zeichenfolge stehen. 28 der Regeln werden nur angewendet, wenn sie am Ende der Zeichenfolge stehen. Die transformierte Namenszeichenfolge wird als Code codiert, der aus einem Anfangsbuchstaben gefolgt von drei Stellen besteht (Nullen und doppelt vorhandene Zahlen werden entfernt). Diese Option wurde entwickelt, um auf Einschränkungen von Soundex zu reagieren; sie ist komplexer und deshalb langsamer als Soundex.
      Soundex
      Bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen auf Grundlage einer phonetischen Darstellung ihrer Zeichen.
      SubString
      Bestimmt, ob eine Zeichenfolge in einer anderen Zeichenfolge enthalten ist.
      Silbenabgleich
      Kombiniert phonetische Informationen mit auf „Entfernung bearbeiten“ basierenden Berechnungen. Wandelt die zu vergleichenden Zeichenfolgen in Sequenzen von Silben um und berechnet die Anzahl der Bearbeitungen, die erforderlich sind, um eine Silbensequenz in eine andere umzuwandeln.

      Die folgende Tabelle beschreibt die logische Beziehung zwischen der Anzahl von Algorithmen, die Sie basierend auf der ausgewählten übergeordneten Bewertungsmethode verwenden können.

      Tabelle 2. Matrix Algorithmus zu Bewertungsmethode
      Bewertungsmethode Algorithmen
      Einzeln Mehrere
      Gewichteter Mittelwert nicht verfügbar Ja
      Durchschnitt nicht verfügbar Ja
      Maximum Ja Ja
      Minimum nicht verfügbar Ja
      Vektoraddition nicht verfügbar Ja
  6. Wenn Sie eine Regel in „Interflow Match“, „Intraflow Match“ oder „Transactional Match“ definieren und die Regel mit anderen Schritten und/oder Benutzern gemeinsam nutzen möchten, klicken Sie oben im Fenster auf die Schaltfläche Speichern.