Erstellen eines „Best of Breed“-Datensatzes

Um doppelte Datensätze aus Ihren Daten zu entfernen, können Sie Daten aus Gruppen doppelter Datensätze in einem einzelnen „Best of Breed“-Datensatz zusammenführen. Dieser Ansatz ist nützlich, wenn die einzelnen Datensatzdubletten Daten des gleichen Typs enthalten (z. B. Telefonnummern oder Namen) und Sie die besten Daten aus den einzelnen Datensätzen in dem erhalten gebliebenen Datensatz beibehalten möchten.

Diese Schritte beschreiben, wie ein Datenfluss erstellt wird, der doppelte Datensätze in einem Best of Breed-Datensatz zusammenführt.

  1. Erstellen Sie im Enterprise Designer einen Datenfluss, der doppelte Datensätze per Vergleich identifiziert.

    Der Vergleich ist der erste Schritt der Deduplizierung, weil Sie Datensätze identifizieren müssen, die ähnlich sind, etwa Datensätze mit derselben Kontonummer oder demselben Namen. Die folgenden Themen bieten eine Anleitung zum Erstellen eines Datenflusses, mit dem Datensätze verglichen werden.

    Anmerkung: Sie müssen den Datenfluss nur bis zu dem Punkt erstellen, an dem er Daten liest und mithilfe eines „Interflow Match“-, „Intraflow Match“- oder „Transactional Match“-Schrittes einen Vergleich durchführt. Sobald Sie einen Datenfluss bis zu diesem Punkt erstellt haben, fahren Sie mit den folgenden Schritten fort.
  2. Sobald Sie einen Datenfluss definiert haben, der Daten liest und Datensätze vergleicht, ziehen Sie einen „Best of Breed“-Schritt auf die Arbeitsfläche. Verbinden Sie ihn mit dem Schritt, der den Vergleich durchführt (Interflow Match, Intraflow Match oder Transactional Match).

    Wenn Ihr Datenfluss beispielsweise Daten aus einer Datei liest und den Vergleich mit Intraflow Match durchführt, sieht Ihr Datenfluss nach Hinzufügen eines „Best of Breed“-Schrittes so aus:

  3. Doppelklicken Sie auf den „Best of Breed“-Schritt auf der Arbeitsfläche.
  4. Wählen Sie im Feld Gruppieren nach CollectionNumber aus.
  5. Wählen Sie unter Best-of-Breed-Einstellungen Regeln im Bedingungsbaum aus.
  6. Klicken Sie auf Regel hinzufügen.

    Datensätze in jeder Gruppe werden ausgewertet, um festzustellen, ob sie die hier definierten Regeln erfüllen. Wenn ein Datensatz einer Regel entspricht, können seine Daten in den Best of Breed-Datensatz kopiert werden. Dies hängt davon ab, wie Sie die der Regel zugeordneten Aktionen konfigurieren. Sie definieren diese Aktionen später.

  7. Definieren Sie eine Regel, die ein doppelter Datensatz erfüllen muss, damit seine Daten in den Best of Breed-Datensatz kopiert werden.

    Definieren Sie die Regel anhand der folgenden Optionen:

    Option Beschreibung

    Feldname

    Gibt den Namen des Datenflussfeldes mit dem auszuwertenden Wert an, um zu bestimmen, ob die Bedingung erfüllt ist und die dazugehörigen Aktionen ausgeführt werden sollen.

    Feldtyp

    Gibt den Datentyp im Feld an. Zur Auswahl stehen:

    Nicht numerisch
    Wählen Sie diese Option aus, wenn das Feld nicht numerische Daten enthält (z. B. string-Daten).
    Numerisch
    Wählen Sie diese Option aus, wenn das Feld numerische Daten enthält (z. B. double, float usw.).

    Operator

    Gibt den Vergleichstyp an, den Sie zur Auswertung des Feldes verwenden möchten. Zur Auswahl stehen:

    Contains
    Bestimmt, ob das Feld den angegebenen Wert enthält. Zum Beispiel enthält „Segelboot“ den Wert „boot“.
    Gleich
    Bestimmt, ob das Feld exakt den angegebenen Wert enthält.
    Größer als
    Bestimmt, ob der Feldwert größer als der angegebene Wert ist. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden.
    Größer oder gleich
    Bestimmt, ob der Feldwert größer als oder gleich dem angegebenen Wert ist. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden.
    Höchste
    Vergleicht den Wert des Feldes für die gesamte Datensatzgruppe und bestimmt, welcher Datensatz den höchsten Wert im Feld aufweist. Wenn die Felder in der Gruppe beispielsweise Werte von 10, 20, 30 und 100 enthalten, würde der Datensatz mit dem Feldwert 100 ausgewählt werden. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden. Wenn mehrere Datensätze gleichzeitig den längsten Wert aufweisen, wird ein Datensatz ausgewählt.
    Ist leer
    Bestimmt, ob das Feld keinen Wert enthält.
    Ist nicht leer
    Bestimmt, ob das Feld einen Wert enthält.
    Kleiner als
    Bestimmt, ob der Feldwert kleiner als der angegebene Wert ist. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden.
    Kleiner oder gleich
    Bestimmt, ob der Feldwert kleiner als oder gleich dem angegebenen Wert ist. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden.
    Längste
    Vergleicht den Wert des Feldes für die gesamte Datensatzgruppe und bestimmt, welcher Datensatz den längsten Wert (in Bytes) im Feld aufweist. Wenn die Gruppe beispielsweise die Werte „Mike“ und „Michael“ enthält, wird der Datensatz mit dem Wert „Michael“ ausgewählt. Wenn mehrere Datensätze gleichzeitig den längsten Wert aufweisen, wird ein Datensatz ausgewählt.
    Niedrigste
    Vergleicht den Wert des Feldes für die gesamte Datensatzgruppe und bestimmt, welcher Datensatz den niedrigsten Wert im Feld aufweist. Wenn die Felder in der Gruppe beispielsweise Werte von 10, 20, 30 und 100 enthalten, würde der Datensatz mit dem Feldwert 10 ausgewählt werden. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden. Wenn mehrere Datensätze gleichzeitig den längsten Wert aufweisen, wird ein Datensatz ausgewählt.
    Häufigste
    Bestimmt, ob der Feldwert den Wert enthält, der in diesem Feld unter den Datensätzen in der Gruppe am häufigsten auftritt. Wenn zwei oder mehr Werte am häufigsten auftreten, werden keine Aktionen durchgeführt.
    Ungleich
    Bestimmt, ob der Feldwert nicht mit dem angegebenen Wert übereinstimmt.

    Werttyp

    Gibt den Werttyp an, den Sie mit dem Wert des Feldes vergleichen möchten. Zur Auswahl stehen:

    Anmerkung: Diese Option ist nicht verfügbar, wenn Sie den Operator „Höchste“, „Niedrigste“ oder „Längste“ auswählen.
    Feld
    Wählen Sie diese Option, wenn Sie den Wert eines anderen Datenflussfeldes mit dem Feld vergleichen möchten.
    Zeichenfolge
    Wählen Sie diese Option, wenn Sie das Feld mit einem spezifischen Wert vergleichen möchten.
    Wert

    Gibt den Wert an, der mit dem Wert des Feldes verglichen werden soll. Wenn Sie im Feld Feldtyp den Eintrag „Feld“ ausgewählt haben, müssen Sie ein Datenflussfeld auswählen. Wenn Sie im Feld Werttyp den Eintrag „Zeichenfolge“ ausgewählt haben, müssen Sie den bei dem Vergleich zu verwendenden Wert eingeben.

    Anmerkung: Diese Option ist nicht verfügbar, wenn Sie den Operator „Höchste“, „Niedrigste“ oder „Längste“ auswählen.
  8. Klicken Sie auf OK.
  9. Klicken Sie im Baum auf den Knoten Aktionen.
  10. Klicken Sie auf Aktion hinzufügen.
  11. Geben Sie die Daten an, die in den Best of Breed-Datensatz kopiert werden sollen, wenn der Datensatz den in der Regel definierten Kriterien entspricht.
    Option Beschreibung

    Quelltyp

    Gibt den Datentyp an, der in den „Best of Breed“-Datensatz kopiert werden soll. Die folgenden Optionen stehen zur Auswahl:

    Feld
    Wählen Sie diese Option aus, wenn Sie einen Wert aus einem Feld in den „Best of Breed“-Datensatz kopieren möchten.
    Zeichenfolge
    Wählen Sie diese Option aus, wenn Sie einen konstanten Wert in den „Best of Breed“-Datensatz kopieren möchten.

    Quelldaten

    Gibt die Daten an, die in den „Best of Breed“-Datensatz kopiert werden sollen. Wenn der Quelltyp „Feld“ ist, müssen Sie das Feld auswählen, dessen Wert in das Zielfeld kopiert werden soll. Wenn der Quelltyp „Zeichenfolge“ ist, müssen Sie einen konstanten Wert angeben, der in das Zielfeld kopiert werden soll.

    Ziel

    Gibt das Feld im „Best of Breed“-Datensatz an, in das die im Feld Quelldaten angegebenen Daten kopiert werden sollen.

    Quelldaten kumulieren

    Wenn es sich bei den Daten im Feld Quelldaten um numerische Daten handelt, können Sie diese Option aktivieren, um die Quelldaten für alle Datensatzdubletten zu kombinieren und den Gesamtwert in den „Best of Breed“-Datensatz einzufügen.

    Beispiel: Es sind drei Datensatzdubletten in der Gruppe vorhanden und weisen die folgenden Werte im Feld „Einzahlungen“ auf:

    100,00
    20,00
    5,00

    Alle drei Werte werden addiert und die Summe (125,00) wird in das Feld „Einzahlungen“ des „Best of Breed“-Datensatzes eingefügt.

  12. Klicken Sie auf OK.

    Sie haben jetzt „Best of Breed“ mit einer Regel und einer Aktion konfiguriert. Sie können bei Bedarf zusätzliche Regeln und Aktionen hinzufügen.

  13. Klicken Sie auf OK, um das Fenster Best of Breed zu schließen.
  14. Ziehen Sie einen Datenladeschritt auf die Arbeitsfläche und verbinden Sie ihn mit dem „Best of Breed“-Schritt.

    Bei Verwendung eines „Write to File“-Datenladeschrittes würde Ihr Datenfluss so aussehen:

  15. Doppelklicken Sie auf den Datenladeschritt und konfigurieren Sie ihn.

    Informationen zum Konfigurieren von Datenladeschritten finden Sie im Datenfluss-Designer-Handbuch.

Sie haben jetzt einen Datenfluss, der übereinstimmende Datensätze identifiziert und Datensätze innerhalb einer Sammlung in einem einzelnen Best of Breed-Datensatz zusammenführt.