Optionen

  1. Wählen Sie im Feld Vergleichsregel laden eine der vordefinierten Vergleichsregeln aus, die Sie entweder unverändert verwenden oder nach Bedarf ändern können. Wenn Sie eine neue Vergleichsregel erstellen möchten, ohne eine der vordefinierten Vergleichsregeln als Startpunkt zu verwenden, klicken Sie auf Neu. Im Datenfluss darf lediglich eine benutzerdefinierte Regel enthalten sein.
    Anmerkung: Das Feature „Datenflussoptionen“ im Enterprise Designer ermöglicht es, die Vergleichsregel für die Konfiguration zur Laufzeit verfügbar zu machen.
  2. Klicken Sie auf Gruppieren nach, um ein Feld auszuwählen, das zum Gruppieren von Datensätzen in der Vergleichswarteschlange verwendet werden soll. Intraflow Match führt lediglich Vergleichsvorgänge zwischen Datensätzen in derselben Vergleichswarteschlange durch.
  3. Aktivieren Sie das Kästchen Sortieren, um eine Vorabvergleichssortierung Ihrer Eingabe basierend auf dem im Feld Gruppieren nach ausgewählten Feld durchzuführen.
  4. Klicken Sie auf Erweitert, um zusätzliche Optionen der Sortierleistung festzulegen.
    Beschränkung für Datensätze im Arbeitsspeicher
    Gibt die maximale Anzahl von Datenzeilen an, die ein Sorter im Arbeitsspeicher belässt, bevor er sie auf die Festplatte auslagert. Standardmäßig erfolgt eine Sortierung von bis zu 10.000 Datensätze in einem Arbeitsspeicher und eine Sortierung von mehr als 10.000 Datensätzen auf einem Datenträger. Der maximale Wert umfasst 100.000 Datensätze. In der Regel erfolgt eine Sortierung im Arbeitsspeicher deutlich schneller als auf einem Datenträger. Daher sollte hierfür ein Wert festgelegt werden, der hoch genug ist, damit ein Großteil der Sortierungen im Arbeitsspeicher erfolgen kann und nur umfangreiche Datasets auf einen Datenträger geschrieben werden.
    Anmerkung: Vorsicht bei Umgebungen, in denen Aufträge gleichzeitig ausgeführt werden: Durch das Erhöhen der Einstellung Beschränkung für Datensätze im Arbeitsspeicher wird die Wahrscheinlichkeit erhöht, dass nicht mehr genügend Arbeitsspeicher verfügbar ist.
    Maximale Anzahl temporärer Dateien
    Gibt die maximale Anzahl temporärer Dateien an, die von einem Sortiervorgang verwendet werden können. Die Verwendung einer größeren Anzahl temporärer Dateien kann zu einer besseren Leistung führen. Die optimale Anzahl hängt jedoch stark von der Konfiguration des Servers ab, auf dem Spectrum™ Technology Platform ausgeführt wird. Sie sollten mit verschiedenen Einstellungen experimentieren und dabei die Auswirkungen auf die Leistung beobachten, wenn mehr oder weniger temporäre Dateien verwendet werden. Verwenden Sie für die Berechnung der ungefähren Anzahl temporärer Dateien die folgende Gleichung:
    (NumberOfRecords × 2) ÷ InMemoryRecordLimit = NumberOfTempFiles 
    Beachten Sie, dass die maximale Anzahl der temporären Dateien 1.000 nicht überschreiten darf.
    Komprimierung aktivieren
    Gibt an, dass temporäre Dateien komprimiert werden, wenn sie auf die Festplatte geschrieben werden.
    Anmerkung: Welche Einstellungen für die Sortierleistung optimal sind, hängt von der Hardwarekonfiguration Ihres Servers ab. Dennoch wird mit der folgenden Gleichung im Allgemeinen eine gute Sortierleistung erzielt:
    (InMemoryRecordLimit × MaxNumberOfTempFiles ÷ 2) >= TotalNumberOfRecords
  5. Klicken Sie auf Schnellvergleich aktiviert, um einen Erstvergleich zwischen Schnellschlüsselwerten durchzuführen, was zur Bestimmung dient, ob zwei Datensätze als Übereinstimmung gelten.

    Der Schnellschlüsselvergleich kann ein hilfreiches Tool zur Reduzierung der Anzahl an durchgeführten Vergleichen sein und somit die Ausführungsgeschwindigkeit verbessern. Ein zu weit gefasster Schnellschlüssel hat viele falsch-positive Übereinstimmungen zur Folge. Sie können einen Schnellschlüssel als Teil der Generierung eines Vergleichsschlüssels über den MatchKeyGenerator generieren. Weitere Informationen finden Sie unter Match Key Generator.

    Wenn zwei Datensätze eine genaue Übereinstimmung im Schnellschlüssel aufweisen, wird der Kandidat als eine 100 %-ige Dublette eingeordnet. Wenn der Schnellvergleichsschlüssel in zwei Datensätzen nicht übereinstimmt, werden diese anhand der regelbasierten Methode verglichen.

    Um zu ermitteln, ob ein Kandidat mithilfe eines Schnellvergleichsschlüssels verglichen wurde, sehen Sie nach, ob das Feld ExpressKeyIdentified „Y“ (ja) oder „N“ (nein) enthält. Beachten Sie, dass Datensatzkopfdubletten immer den Wert „N“ in ExpressKeyIdentified enthalten.

  6. Geben Sie im Textfeld Anfängliche Sammlungsnummer die Startnummer ein, die dem Sammlungsnummernfeld für Datensatzdubletten zugewiesen werden soll.

    Die Sammlungsnummer identifiziert jede Datensatzdublette in einer Vergleichswarteschlange. Eindeutige Datensätze erhalten die Sammlungsnummer 0. Jeder Datensatzdublette wird eine Sammlungsnummer zugewiesen, die mit dem im Textfeld Anfängliche Sammlungsnummer angegebenen Wert beginnt.

  7. Wählen Sie eine der folgenden Optionen aus:
    OptionBezeichnung

    Kopfdublette mit allen Kandidaten vergleichen

    Bei dieser Option wird die Kopfdublette mit allen Kandidaten in derselben Übereinstimmungsgruppe (Option „Gruppieren nach“) verglichen, auch wenn bereits eine Dublette innerhalb der Übereinstimmungsgruppe ermittelt wurde. Beispiel:

    Kopfdublette: John Smith
    Kandidat: Bill Jones
    Kandidat: John Smith
    Kandidat: John Smith

    Im Beispiel würde die Kopfdublette „John Smith“ mit den beiden Kandidaten „John Smith“ verglichen werden.

    Aktivieren Sie das Kästchen Eindeutige Kandidaten zurückgeben, um Datensätze innerhalb einer Übereinstimmungsgruppe aus dem Kandidatenport zurückzugeben, die als eindeutige Datensätze identifiziert wurden.

    Kopfdublette nicht mehr mit Kandidaten vergleichen, wenn n Dubletten gefunden wurden

    Bei dieser Option wird die Kopfdublette mit allen Kandidaten in derselben Übereinstimmungsgruppe (Option „Gruppieren nach“) verglichen. Der Vergleich wird jedoch beendet, wenn die benutzerdefinierte Anzahl an Dubletten ermittelt wurde. Wenn Sie beispielsweise wählen, Kandidaten nicht mehr zu vergleichen, sobald eine Dublette ermittelt wird, und Ihnen die folgenden Daten vorliegen:

    Kopfdublette: John Smith
    Kandidat: Bill Jones
    Kandidat: John Smith
    Kandidat: John Smith

    Im Beispiel würde der Vergleich des Kopfdubletten-Datensatzes „John Smith“ in der Übereinstimmungsgruppe beendet werden, wenn der erste Kandidat „John Smith“ als Dublette identifiziert werden würde.

  8. Klicken Sie auf Daten für Analyse generieren, um Vergleichsergebnisse zu generieren. Weitere Informationen finden Sie unter Analysieren von Vergleichsergebnissen.
  9. Über Eindeutigen Datensätzen Sammlungsnummer 0 zuweisen (standardmäßig aktiviert) werden Nullen als Sammlungsnummern eindeutigen Datensätzen zugewiesen. Deaktivieren Sie diese Option, um statt der Null andere Sammlungsnummern für eindeutige Datensätze zu generieren. Die Sammlungsnummern für eindeutige Datensätze werden gemäß der Reihenfolge der anderen Sammlungsnummern nummeriert. Wenn Ihr Vergleichsdatenfluss beispielsweise fünf Datensätze ermittelt und die ersten drei Datensätze eindeutig sind, werden die Sammlungsnummern wie in der ersten Gruppe unten dargestellt zugewiesen. Wenn Ihr Vergleichsdatenfluss fünf Datensätze ermittelt und die letzten beiden Datensätze eindeutig sind, werden die Sammlungsnummern wie in der zweiten Gruppe unten dargestellt zugewiesen.
    OptionBezeichnung
    Sammlungsnummer Datensatztyp
    1 Eindeutig
    2 Eindeutig
    3 Eindeutig
    4 Dublette/Kopfdublette
    4 Dublette/Kopfdublette
       
    Sammlungsnummer Datensatztyp
    1 Dublette/Kopfdublette
    1 Dublette/Kopfdublette
    2 Eindeutig
    3 Eindeutig
    4 Eindeutig
    Wenn dieses Kästchen aktiviert bleibt, wird allen in Ihrem Datenfluss ermittelten eindeutigen Datensätzen standardmäßig die Sammlungsnummer Null zugewiesen.
  10. Wenn Sie eine neue benutzerdefinierte Vergleichsregel erstellen, finden Sie unter Erstellen einer Vergleichsregel weitere Informationen.
  11. Klicken Sie auf Auswerten, um zu prüfen, wie ein Kopfdubletten-Datensatz im Vergleich zu Kandidatendatensätzen ausgewertet wurde. Weitere Informationen finden Sie unter Interflow Match.