Verwenden eines Schnellvergleichsschlüssels

Der schnelle Schlüsselvergleich kann ein nützliches Tool sein, um die Anzahl der ausgeführten Vergleichsvorgänge zu reduzieren und dadurch die Ausführungsgeschwindigkeit bei Datenflüssen zu verbessern, in denen ein „Interflow Match“- oder „Intraflow Match“-Schritt verwendet wird. Wenn der Schnellvergleichsschlüssel in zwei Datensätzen genau übereinstimmt, wird der Kandidat als 100-prozentige Übereinstimmung gewertet und keine weiteren Übereinstimmungsversuche unternommen. Wenn der Schnellvergleichsschlüssel in zwei Datensätzen nicht übereinstimmt, werden diese anhand der regelbasierten Methode verglichen. Ein loser Schnellvergleichsschlüssel kann allerdings zu vielen falschen positiven Übereinstimmungen führen.

  1. Öffnen Sie Ihren Datenfluss im Enterprise Designer.
  2. Doppelklicken Sie auf den „Match Key Generator“-Schritt.
  3. Aktivieren Sie das Kästchen Schnellvergleichsschlüssel generieren.
  4. Klicken Sie auf Hinzufügen.
  5. Füllen Sie die folgenden Felder aus:
    Tabelle 1. Match Key Generator-Optionen

    Name der Option

    Beschreibung/gültige Werte

    Algorithmus

    Gibt den Algorithmus an, der verwendet werden soll, um den Vergleichsschlüssel zu generieren. Zur Auswahl stehen:

    Consonant
    Gibt die angegebenen Felder mit entfernten Konsonanten zurück.
    Double Metaphone
    Gibt einen auf einer phonetischen Darstellung ihrer Zeichen basierenden Code zurück. „Double Metaphone“ ist eine verbesserte Version des Algorithmus „Metaphone“ und versucht, viele der in unterschiedlichen Sprachen vorkommenden Unregelmäßigkeiten zu berücksichtigen.
    Köln
    Indiziert Namen nach Klang, so wie sie auf Deutsch ausgesprochen werden. Ermöglicht die Codierung von Namen mit derselben Aussprache in derselben Darstellung, sodass sie trotz kleiner Unterschiede bei der Schreibwiese verglichen werden können. Das Ergebnis ist immer eine Folge von Zahlen; Sonderzeichen und Leerzeichen werden ignoriert. Diese Option wurde entwickelt, um auf Einschränkungen von Soundex zu reagieren.
    MD5
    Ein Message Digest-Algorithmus, der einen 128-Bit-Hashwert erzeugt. Dieser Algorithmus wird im Allgemeinen verwendet, um die Datenintegrität zu überprüfen.
    Metaphone
    Gibt einen per Metaphone codierten Schlüssel ausgewählter Felder zurück. Metaphone ist ein Algorithmus, um Wörter anhand ihrer englischen Aussprache zu codieren.
    Metaphone (Spanisch)
    Gibt einen per Metaphone codierten Schlüssel ausgewählter Felder für die spanische Sprache zurück. Dieser Metaphone-Algorithmus codiert Wörter anhand ihrer spanischen Aussprache.
    Metaphone 3
    Übertrifft die Algorithmen „Metaphone“ und „Double Metaphone“ mit genaueren Einstellungen für Konsonanten und inneren Vokalen, was Ihnen ermöglicht, Wörter oder Namen auf phonetischer Basis mehr oder weniger eng mit Suchbegriffen abgeglichen zu erzeugen. Metaphone 3 erhöht die Genauigkeit der phonetischen Codierung auf 98 %. Diese Option wurde entwickelt, um auf Einschränkungen von Soundex zu reagieren.
    NYSIIS
    Phonetischer Codealgorithmus, der eine ungefähr übereinstimmende Aussprache mit der exakten Schreibweise vergleicht und Wörter indiziert, deren Aussprache ähnlich ist. Bestandteil des New York State Identification and Intelligence System. Angenommen, Sie suchen die Daten einer Person in einer Personendatenbank. Sie meinen, dass der Name der Person wie „John Smith“ klingt, er wird aber „Jon Smyth“ geschrieben. Würden Sie eine Suche durchführen, in der nach einer genauen Übereinstimmung mit „John Smith“ gesucht wird, würden keine Ergebnisse zurückgegeben. Wenn Sie jedoch die Datenbank mit dem Algorithmus NYSIIS indizieren und eine erneute Suche mit dem Algorithmus NYSIIS durchführen, wird die richtige Übereinstimmung zurückgegeben, weil vom Algorithmus sowohl „John Smith“ als auch „Jon Smyth“ als „JAN SNATH“ indiziert werden.
    Phonix
    Vorverarbeitet Namenszeichenfolgen, indem mehr als 100 Transformationsregeln auf einzelne Zeichen oder auf Zeichenfolgen angewendet werden. 19 dieser Regeln werden nur angewendet, wenn das bzw. die Zeichen am Anfang der Zeichenfolge stehen, während 12 der Regeln nur angewendet werden, wenn sie in der Mitte der Zeichenfolge stehen. 28 der Regeln werden nur angewendet, wenn sie am Ende der Zeichenfolge stehen. Die transformierte Namenszeichenfolge wird als Code codiert, der aus einem Anfangsbuchstaben gefolgt von drei Stellen besteht (Nullen und doppelt vorhandene Zahlen werden entfernt). Diese Option wurde entwickelt, um auf Einschränkungen von Soundex zu reagieren; sie ist komplexer und deshalb langsamer als Soundex.
    Soundex
    Gibt einen Soundex-Code ausgewählter Felder zurück. Soundex erzeugt einen auf der englischen Aussprache eines Wortes basierenden Code mit fester Länge.
    Teilzeichenfolge
    Gibt einen angegebenen Teil des ausgewählten Feldes zurück.

    Feldname

    Gibt das Feld an, auf das Sie den ausgewählten Algorithmus anwenden möchten, um den Vergleichsschlüssel zu generieren. Wenn Sie beispielsweise ein Feld mit Namen „LastName“ auswählen und den Soundex-Algorithmus wählen, würde der Soundex-Algorithmus auf die Daten im Feld „LastName“ angewendet, um einen Vergleichsschlüssel zu erzeugen.

    Startposition

    Gibt die Startposition innerhalb des angegebenen Feldes an. Nicht alle Algorithmen erlauben Ihnen, eine Startposition anzugeben.

    Länge

    Gibt die Länge der Zeichen an, die ab der Startposition eingeschlossen werden sollen. Nicht alle Algorithmen erlauben Ihnen, eine Länge anzugeben.

    Sonderzeichen entfernen

    Entfernt alle nicht numerischen und nicht alphabetischen Zeichen wie Bindestriche, Leerzeichen und andere Sonderzeichen aus einem Eingabefeld.

    Eingabe sortieren

    Sortiert alle Zeichen in einem Eingabefeld oder alle Begriffe in einem Eingabefeld in alphabetischer Reihenfolge.

    Zeichen
    Sortiert die Zeichenwerte aus einem Eingabefeld vor dem Erstellen einer eindeutigen ID.
    Begriffe
    Sortiert jeden Begriffswert aus einem Eingabefeld vor dem Erstellen einer eindeutigen ID.
  6. Klicken Sie auf OK.
  7. Wenn Sie ein zusätzliches Feld und/oder einen zusätzlichen Algorithmus zum Generieren des Schnellvergleichsschlüssels angeben möchten, klicken Sie auf Hinzufügen. Klicken Sie anderenfalls auf OK.
  8. Doppelklicken Sie auf den „Interflow Match“- oder „Intraflow Match“-Schritt auf der Arbeitsfläche.
  9. Wählen Sie die Option Schnellvergleich aktiviert aus und dann das Feld ExpressMatchKey.

    Dieses Feld enthält den von „Match Key Generator“ erzeugten Schnellvergleichsschlüssel.

  10. Klicken Sie auf OK.
  11. Speichern Sie Ihren Datenfluss und führen Sie ihn aus.

Um zu ermitteln, ob ein Kandidat mithilfe eines Schnellvergleichsschlüssels verglichen wurde, sehen Sie nach, ob das Feld ExpressKeyIdentified „Y“ (ja) oder „N“ (nein) enthält. Beachten Sie, dass Datensatzkopfdubletten immer den Wert „N“ in ExpressKeyIdentified enthalten.