Formalisierung von Personennamen

Diese Datenflussvorlage zeigt, wie mit Personennamensdaten (z. B. „John P. Smith“) umgegangen wird, wie häufige Spitznamen desselben Namens identifiziert werden und wie eine Standardversion des Namens erstellt wird, mit der sich dann redundante Datensätze konsolidieren lassen. Außerdem zeigt sie, wie Sie Titel-/Anrededaten basierend auf den Geschlechtsdaten hinzufügen können.

Geschäftsszenario

Sie arbeiten für eine Wohltätigkeitsorganisation, die Einladungen für einen Gala-Abend verschicken möchte. Ihre Eingabedaten enthalten Namensdaten als vollständige Namen und Sie möchten die Namensdaten in die Felder „Vorname“, „Zweiter Vorname“ und „Nachname“ parsen sowie das Feld „Anrede“ hinzufügen, um Ihre Einladungen formaler zu gestalten. Sie möchten außerdem Spitznamen in Ihren Namensdaten ersetzen, um eine höflichere Variante des Namens zu nutzen.

Im folgenden Datenfluss wird eine Lösung für das Geschäftsszenario bereitgestellt:

Diese Datenflussvorlage ist im Enterprise Designer verfügbar. Öffnen Sie Datei > Neu > Datenfluss > Aus Vorlage, und wählen Sie StandardizePersonalNames aus. Dieser Datenfluss erfordert das Data Normalization-Modul und das Universal Name-Modul.

Dieser Datenfluss geht bei jeder Datenzeile in der Eingabedatei wie folgt vor:

Read from File

Bei diesem Schritt werden der Dateiname, der Speicherort und das Layout der Datei identifiziert, welche die zu parsenden Namen enthält. Die Datei enthält männliche und weibliche Namen.

Name Parser

In dieser Vorlage ist der „Name Parser“-Schritt als „Parse Personal Name“ benannt. Der „Parse Personal Name“-Schritt untersucht Namensfelder und vergleicht sie mit den Namensdaten, die in den Namensdatenbankdateien von Spectrum™ Technology Platform gespeichert sind. Basierend auf dem Vergleich parst er die Namensdaten in den Feldern „Vorname“, „Zweiter Vorname“ und „Nachname“ und weist jedem Namen einen Entitätstyp sowie ein Geschlecht zu. Er verwendet neben den Namensdaten außerdem die Mustererkennung.

In dieser Vorlage wird der „Parse Personal Name“-Schritt wie folgt konfiguriert.

„Personennamen parsen“ wird ausgewählt und „Unternehmensnamen parsen“ wird gelöscht. Bei der Auswahl dieser Optionen werden Vornamen nach Geschlecht, Reihenfolge und Interpunktion ausgewertet und es wird keine Bewertung der Unternehmensnamen durchgeführt.
„Quelle für Geschlechtsbestimmung“ ist auf „Standard“ eingestellt. In den meisten Fällen ist „Standard“ die beste Einstellung für die Geschlechtsbestimmung, da mit ihr ein breites Spektrum von Namen abgedeckt wird. Wenn Sie jedoch Namen aus einer bestimmten Kultur verarbeiten, wählen Sie diese Kultur aus. Die Auswahl einer bestimmten Kultur hilft bei der Sicherstellung, dass den Namen das richtige Geschlecht zugewiesen wird. Beispiel: Wenn Sie „Standard“ aktiviert lassen, wird der Name Jean als weiblicher Name identifiziert. Wenn Sie jedoch Französisch auswählen, wird der Name als männlicher Name identifiziert.
„Reihenfolge“ ist auf „Natürlich“ eingestellt. Die Namensfelder sind nach Titel, Vorname, zweiter Vorname, Nachname und Suffix sortiert.
„Punkte beibehalten“ ist deaktiviert. Das heißt, dass keinerlei Interpunktion in den Namensdaten beibehalten wird.

Transformer

In dieser Vorlage wird der Transformer-Schritt mit „Assign Titles“ benannt: Der „Assign Titles“-Schritt verwendet ein benutzerdefiniertes Skript, um jede Zeile in der Datenstromausgabe mithilfe des „Parse Personal Name“-Schrittes zu durchsuchen und einen TitleOfRespect-Wert basierend auf dem GenderCode-Wert zuzuweisen.

Das benutzerdefinierte Skript lautet wie folgt:

if (row.get('TitleOfRespect') == '')
{
	if (row.get('GenderCode') == 'M')
		row.set('TitleOfRespect', 'Mr')
	if (row.get('GenderCode') == 'F')
		row.set('TitleOfRespect', 'Ms')

Jedes Mal, wenn der „Assign Titles“-Schritt den Buchstaben M im Feld GenderCode erkennt, wird der Wert für TitleOfRespect auf Mr (Herr) eingestellt. Jedes Mal, wenn der „Assign Titles“-Schritt den Buchstaben F im Feld GenderCode erkennt, wird der Wert für TitleOfRespect auf Ms (Frau) eingestellt.

Standardisierung

In dieser Vorlage wird der Standardization-Schritt mit „Standardize Nicknames“ benannt: Der „Standardize Nicknames“-Schritt sucht zunächst nach Vornamen in der „Nicknames.xml“-Datenbank und ersetzt alle Spitznamen durch eine regulärere Form des Namens. Der Name Tommy wird z. B. durch Thomas ersetzt.

Write to File

Die Vorlage enthält einen „Write to File“-Schritt. Neben den Eingabefeldern enthält die Ausgabedatei die Felder „TitleOfRespect“, „FirstName“, „MiddleName“, „LastName“, „EntityType“, „GenderCode“ und „GenderDeterminationSource“.