Erstellen eines „Best of Breed“-Datensatzes
Um doppelte Datensätze aus Ihren Daten zu entfernen, können Sie Daten aus Gruppen doppelter Datensätze in einem einzelnen „Best of Breed“-Datensatz zusammenführen. Dieser Ansatz ist nützlich, wenn die einzelnen Datensatzdubletten Daten des gleichen Typs enthalten (z. B. Telefonnummern oder Namen) und Sie die besten Daten aus den einzelnen Datensätzen in dem erhalten gebliebenen Datensatz beibehalten möchten.
Diese Schritte beschreiben, wie ein Datenfluss erstellt wird, der doppelte Datensätze in einem Best of Breed-Datensatz zusammenführt.
-
Erstellen Sie im Enterprise Designer einen Datenfluss, der doppelte Datensätze per Vergleich identifiziert.
Der Vergleich ist der erste Schritt der Deduplizierung, weil Sie Datensätze identifizieren müssen, die ähnlich sind, etwa Datensätze mit derselben Kontonummer oder demselben Namen. Die folgenden Themen bieten eine Anleitung zum Erstellen eines Datenflusses, mit dem Datensätze verglichen werden.
- Vergleichen von Datensätzen aus einer einzelnen Quelle
- Vergleichen von Datensätzen einer Quelle mit Datensätzen einer anderen Quelle
- Vergleichen von Datensätzen mit einer Datenbank
Anmerkung: Sie müssen den Datenfluss nur bis zu dem Punkt erstellen, an dem er Daten liest und mithilfe eines „Interflow Match“-, „Intraflow Match“- oder „Transactional Match“-Schrittes einen Vergleich durchführt. Sobald Sie einen Datenfluss bis zu diesem Punkt erstellt haben, fahren Sie mit den folgenden Schritten fort. -
Sobald Sie einen Datenfluss definiert haben, der Daten liest und Datensätze vergleicht, ziehen Sie einen „Best of Breed“-Schritt auf die Arbeitsfläche. Verbinden Sie ihn mit dem Schritt, der den Vergleich durchführt (Interflow Match, Intraflow Match oder Transactional Match).
Wenn Ihr Datenfluss beispielsweise Daten aus einer Datei liest und den Vergleich mit Intraflow Match durchführt, sieht Ihr Datenfluss nach Hinzufügen eines „Best of Breed“-Schrittes so aus:
- Doppelklicken Sie auf den „Best of Breed“-Schritt auf der Arbeitsfläche.
- Wählen Sie im Feld Gruppieren nach CollectionNumber aus.
- Wählen Sie unter Best-of-Breed-Einstellungen Regeln im Bedingungsbaum aus.
-
Klicken Sie auf Regel hinzufügen.
Datensätze in jeder Gruppe werden ausgewertet, um festzustellen, ob sie die hier definierten Regeln erfüllen. Wenn ein Datensatz einer Regel entspricht, können seine Daten in den Best of Breed-Datensatz kopiert werden. Dies hängt davon ab, wie Sie die der Regel zugeordneten Aktionen konfigurieren. Sie definieren diese Aktionen später.
-
Definieren Sie eine Regel, die ein doppelter Datensatz erfüllen muss, damit seine Daten in den Best of Breed-Datensatz kopiert werden.
Definieren Sie die Regel anhand der folgenden Optionen:
Option Beschreibung Feldname
Gibt den Namen des Datenflussfeldes mit dem auszuwertenden Wert an, um zu bestimmen, ob die Bedingung erfüllt ist und die dazugehörigen Aktionen ausgeführt werden sollen.
Feldtyp
Gibt den Datentyp im Feld an. Zur Auswahl stehen:
- Nicht numerisch
- Wählen Sie diese Option aus, wenn das Feld nicht numerische Daten enthält (z. B. string-Daten).
- Numerisch
- Wählen Sie diese Option aus, wenn das Feld numerische Daten enthält (z. B. double, float usw.).
Operator
Gibt den Vergleichstyp an, den Sie zur Auswertung des Feldes verwenden möchten. Zur Auswahl stehen:
- Contains
- Bestimmt, ob das Feld den angegebenen Wert enthält. Zum Beispiel enthält „Segelboot“ den Wert „boot“.
- Gleich
- Bestimmt, ob das Feld exakt den angegebenen Wert enthält.
- Größer als
- Bestimmt, ob der Feldwert größer als der angegebene Wert ist. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden.
- Größer oder gleich
- Bestimmt, ob der Feldwert größer als oder gleich dem angegebenen Wert ist. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden.
- Höchste
- Vergleicht den Wert des Feldes für die gesamte Datensatzgruppe und bestimmt, welcher Datensatz den höchsten Wert im Feld aufweist. Wenn die Felder in der Gruppe beispielsweise Werte von 10, 20, 30 und 100 enthalten, würde der Datensatz mit dem Feldwert 100 ausgewählt werden. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden. Wenn mehrere Datensätze gleichzeitig den längsten Wert aufweisen, wird ein Datensatz ausgewählt.
- Ist leer
- Bestimmt, ob das Feld keinen Wert enthält.
- Ist nicht leer
- Bestimmt, ob das Feld einen Wert enthält.
- Kleiner als
- Bestimmt, ob der Feldwert kleiner als der angegebene Wert ist. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden.
- Kleiner oder gleich
- Bestimmt, ob der Feldwert kleiner als oder gleich dem angegebenen Wert ist. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden.
- Längste
- Vergleicht den Wert des Feldes für die gesamte Datensatzgruppe und bestimmt, welcher Datensatz den längsten Wert (in Bytes) im Feld aufweist. Wenn die Gruppe beispielsweise die Werte „Mike“ und „Michael“ enthält, wird der Datensatz mit dem Wert „Michael“ ausgewählt. Wenn mehrere Datensätze gleichzeitig den längsten Wert aufweisen, wird ein Datensatz ausgewählt.
- Niedrigste
- Vergleicht den Wert des Feldes für die gesamte Datensatzgruppe und bestimmt, welcher Datensatz den niedrigsten Wert im Feld aufweist. Wenn die Felder in der Gruppe beispielsweise Werte von 10, 20, 30 und 100 enthalten, würde der Datensatz mit dem Feldwert 10 ausgewählt werden. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden. Wenn mehrere Datensätze gleichzeitig den längsten Wert aufweisen, wird ein Datensatz ausgewählt.
- Häufigste
- Bestimmt, ob der Feldwert den Wert enthält, der in diesem Feld unter den Datensätzen in der Gruppe am häufigsten auftritt. Wenn zwei oder mehr Werte am häufigsten auftreten, werden keine Aktionen durchgeführt.
- Ungleich
- Bestimmt, ob der Feldwert nicht mit dem angegebenen Wert übereinstimmt.
Werttyp
Gibt den Werttyp an, den Sie mit dem Wert des Feldes vergleichen möchten. Zur Auswahl stehen:
Anmerkung: Diese Option ist nicht verfügbar, wenn Sie den Operator „Höchste“, „Niedrigste“ oder „Längste“ auswählen.- Feld
- Wählen Sie diese Option, wenn Sie den Wert eines anderen Datenflussfeldes mit dem Feld vergleichen möchten.
- Zeichenfolge
- Wählen Sie diese Option, wenn Sie das Feld mit einem spezifischen Wert vergleichen möchten.
Wert Gibt den Wert an, der mit dem Wert des Feldes verglichen werden soll. Wenn Sie im Feld Feldtyp den Eintrag „Feld“ ausgewählt haben, müssen Sie ein Datenflussfeld auswählen. Wenn Sie im Feld Werttyp den Eintrag „Zeichenfolge“ ausgewählt haben, müssen Sie den bei dem Vergleich zu verwendenden Wert eingeben.
Anmerkung: Diese Option ist nicht verfügbar, wenn Sie den Operator „Höchste“, „Niedrigste“ oder „Längste“ auswählen. - Klicken Sie auf OK.
- Klicken Sie im Baum auf den Knoten Aktionen.
- Klicken Sie auf Aktion hinzufügen.
-
Geben Sie die Daten an, die in den Best of Breed-Datensatz kopiert werden sollen, wenn der Datensatz den in der Regel definierten Kriterien entspricht.
Option Beschreibung Quelltyp
Gibt den Datentyp an, der in den „Best of Breed“-Datensatz kopiert werden soll. Die folgenden Optionen stehen zur Auswahl:
- Feld
- Wählen Sie diese Option aus, wenn Sie einen Wert aus einem Feld in den „Best of Breed“-Datensatz kopieren möchten.
- Zeichenfolge
- Wählen Sie diese Option aus, wenn Sie einen konstanten Wert in den „Best of Breed“-Datensatz kopieren möchten.
Quelldaten
Gibt die Daten an, die in den „Best of Breed“-Datensatz kopiert werden sollen. Wenn der Quelltyp „Feld“ ist, müssen Sie das Feld auswählen, dessen Wert in das Zielfeld kopiert werden soll. Wenn der Quelltyp „Zeichenfolge“ ist, müssen Sie einen konstanten Wert angeben, der in das Zielfeld kopiert werden soll.
Ziel
Gibt das Feld im „Best of Breed“-Datensatz an, in das die im Feld Quelldaten angegebenen Daten kopiert werden sollen.
Quelldaten kumulieren
Wenn es sich bei den Daten im Feld Quelldaten um numerische Daten handelt, können Sie diese Option aktivieren, um die Quelldaten für alle Datensatzdubletten zu kombinieren und den Gesamtwert in den „Best of Breed“-Datensatz einzufügen.
Beispiel: Es sind drei Datensatzdubletten in der Gruppe vorhanden und weisen die folgenden Werte im Feld „Einzahlungen“ auf:
100,00
20,00
5,00Alle drei Werte werden addiert und die Summe (125,00) wird in das Feld „Einzahlungen“ des „Best of Breed“-Datensatzes eingefügt.
-
Klicken Sie auf OK.
Sie haben jetzt „Best of Breed“ mit einer Regel und einer Aktion konfiguriert. Sie können bei Bedarf zusätzliche Regeln und Aktionen hinzufügen.
- Klicken Sie auf OK, um das Fenster Best of Breed zu schließen.
-
Ziehen Sie einen Datenladeschritt auf die Arbeitsfläche und verbinden Sie ihn mit dem „Best of Breed“-Schritt.
Bei Verwendung eines „Write to File“-Datenladeschrittes würde Ihr Datenfluss so aussehen:
-
Doppelklicken Sie auf den Datenladeschritt und konfigurieren Sie ihn.
Informationen zum Konfigurieren von Datenladeschritten finden Sie im Datenfluss-Designer-Handbuch.
Sie haben jetzt einen Datenfluss, der übereinstimmende Datensätze identifiziert und Datensätze innerhalb einer Sammlung in einem einzelnen Best of Breed-Datensatz zusammenführt.