Profilerstellungsregeln

Anhand von Profilerstellungsregeln werden unterschiedliche Analysetypen auf Ihren Daten ausgeführt. Wählen Sie beim Einrichten eines Profils die Profilerstellungsregeln aus, die die gewünschten Datenanalysearten durchführen.

In diesem Abschnitt werden die in Metadata Insights unterstützten Profilerstellungsregeln beschrieben.

Zeichenanalyse

Anhand dieser Regel werden Muster, Skripte und Zeichentypen in Zeichenfolgenfeldern identifiziert. Wenn Sie diese Regel aktivieren, erhalten Sie die folgenden Informationen für die Zeichenfolgenfelder in Ihren Daten:

  • Häufigkeit: Die am häufigsten verwendeten Wortgruppen in der ausgewählten Zeichenfolgenspalte.
  • Skriptverteilung: Die unterschiedlichen Skripte, die in der ausgewählten Zeichenfolgenspalte identifiziert wurden, sowie deren Anzahl.
  • Zeichenfolgenlängen: Die Verteilung von Zeichenfolgenlängen in der ausgewählten Zeichenfolgenspalte.
  • Zeichenkategorien: Die Zeichentypen in der ausgewählten Spalte, z. B. Buchstaben, Interpunktion und Zahl.
  • Textmuster: Wandelt Daten in der Zeichenfolgenspalte in ein Muster um und zeigt das Muster, dessen Anzahl und den Prozentsatz für sein Vorkommen an. Das Muster wird anhand der folgenden Regel ermittelt:
    • Lateinische Großbuchstaben werden durch „A“ ersetzt
    • Lateinische Kleinbuchstaben werden durch „a“ ersetzt
    • Ziffern werden durch „9“ ersetzt
    • Steuerzeichen werden durch „ĉ“ ersetzt

Analyse benutzerdefinierter Muster

Anhand dieser Regel wird ein beliebiges Muster in der Zeichenfolgenspalte identifiziert. Sie können die gewünschte Anzahl regulärer Ausdrücke konfigurieren, um Ihre Daten gegen diese abzugleichen. Klicken Sie auf das Symbol „Konfigurieren“ , und geben Sie die folgenden Details ein, um diese Regel beim Erstellen eines Profils zu konfigurieren:

  1. Schlüssel: Name des zu identifizierenden Musters
  2. Wert: Der reguläre Ausdruck für das Muster

    Beispiel: Geben Sie den regulären Ausdruck ^(.+)@(.+)$ in das Feld Wert und „E-Mail“ in das Feld Schlüssel ein, wenn Sie E-Mail-Adressen in Zeichenfolgenspalten identifizieren möchten.

  3. Klicken Sie auf das Symbol „Hinzufügen“, und fügen Sie die Details des nächsten Schlüssel-Wert-Paars hinzu, um einen weiteren Ausdruck hinzuzufügen. Sie können die gewünschte Anzahl von Ausdrücken hinzufügen, um Ihre Daten gegen diese abzugleichen.

Wenn Sie diese Regel aktivieren, erhalten Sie die folgenden Informationen:

  • Gültigkeit: Die Werte, die mit mindestens einem der Muster für reguläre Ausdrücke in der Regel übereinstimmten.
  • Verteilung Mustervergleich: Die Verteilung von Datensätzen, die mit den regulären Ausdrücken übereinstimmten.

Datumsanalyse

Anhand dieser Regel werden Datumswerte in Zeichenfolgenspalten ermittelt und validiert. Zudem werden Datumsmuster in den Spalten sowie deren Verteilung angezeigt. Diese Analyse kann beim Ermitteln von Datumseinträgen in fehlerhaften Spalten, z. B. in E-Mail-Daten, hilfreich sein.

Wenn Sie diese Regel auswählen, wird auf der Seite Ergebnisse der Datenprofilerstellung eine weitere Registerkarte Datumszusammenfassung für die Zeichenfolgenspalten mit Datumswerten angezeigt. Auf dieser Registerkarte werden die folgenden Details angezeigt:

  • Gültigkeit: Die gültigen und ungültigen Werte.
  • Datumsmuster: Die in den ausgewählten Spalten ermittelten Datumsmuster, ihre Gesamtanzahl und der Prozentsatz dieses Musters im Dataset.

E-Mail-Analyse

Anhand dieser Regel werden E-Mail-Adressen ermittelt und validiert. Zudem bestimmt diese Regel die Verteilung von E-Mail-Domänen in der ausgewählten Datenspalte.

Wenn Sie diese Regel auswählen, wird auf der Seite Ergebnisse der Datenprofilerstellung eine weitere Registerkarte E-Mail-Zusammenfassung mit diesen Details angezeigt.

  • Gültigkeit: Die gültigen und ungültigen Werte.
  • Domänenverteilung: Die zehn häufigsten E-Mail-Domänen in der ausgewählten Spalte

Telefonnummernanalyse

Wählen Sie diese Regel aus, um Telefonnummern zu ermitteln und zu validieren sowie als Festnetznummern, Mobiltelefonnummern oder eine beliebige andere Art von Nummer zu identifizieren. Diese Regel zeigt zudem die Verteilung der Telefonnummern nach Land und Region an. Sie müssen diese Regel konfigurieren, um das Standardland zu definieren, das verwendet werden soll, wenn kein Ländercode in einer Telefonnummer angegeben ist.

Wenn Sie diese Regel auswählen, wird auf der Seite Ergebnisse der Datenprofilerstellung eine weitere Registerkarte Telefonnummernzusammenfassung mit diesen Details angezeigt.

  • Gültigkeit: Die gültigen und ungültigen Telefonnummern.
  • Telefonnummerntypen: Die Typen von Telefonnummern, z. B. Mobil, Festnetz, VOIP, Pager oder gebührenfrei.
  • Telefonnummern nach Land: Die Verteilung der ermittelten Telefonnummern nach Land.
  • Telefonnummern nach Region: Die Verteilung der ermittelten Telefonnummern nach Region.

Semantikanalyse

Wählen Sie diese Regel aus, um Semantiktypen zu ermitteln, z. B. Vorname, Ort, Land, ISO-Ländercode 2 und 3, Nachname (Familienname) und Bundesland/-staat. Anhand dieser Regel können Sie nach Werten in falschen Spalten suchen, z. B. Ortsnamen in einer Länderspalte.

Wenn Sie diese Regel auswählen, wird auf der Seite Ergebnisse der Datenprofilerstellung eine weitere Registerkarte Semantiktyp mit den ermittelten Semantiktypen und deren Häufigkeit angezeigt.

US-amerikanische Adressanalyse

Anhand dieser Regel wird die Qualität Ihrer Adressdaten mithilfe der USA-Datenbank des Universal Addressing-Moduls ermittelt. Gehen Sie wie folgt vor, um diese Regel auszuführen:
  • Installieren Sie die USA-Datenbank des Universal Addressing-Moduls, und definieren Sie sie in der Management Console als Ressource. Weitere Informationen zum Hinzufügen dieser Datenbankressource erhalten Sie im Administratorhandbuch.
  • Konfigurieren Sie die Regel für die Analyse von US-Adressen, indem Sie auf die Schaltfläche „Konfigurieren“ klicken und die folgenden Informationen eingeben:
    1. Datenbank des Codierers von US-Adressen: Wählen Sie die Datenbankressource des Universal Addressing-Moduls aus, die in der Management Console konfiguriert ist.
    2. Feld „AddressLine1“ bis Feld „AddressLine5“: Ordnen Sie diese Felder den Spalten der analysierten Tabelle zu. Sie müssen Spaltennamen nicht unbedingt in alle Felder eingeben. Je spezifischer Ihre Angaben jedoch sind, desto besser fällt der Übereinstimmungswert aus.
    3. Ordnen Sie die Spalten in Ihrer Tabelle den Feldern Ort, Land, USUrbanName, FirmName, PostalCode und StateProvince zu.

Wenn Sie diese Regel auswählen, wird auf der Seite Ergebnisse der Datenprofilerstellung die Registerkarte Adressenzusammenfassung angezeigt.

  • In der Legende unter dem Diagramm wird der Übereinstimmungswert für die Daten sowie die Farbcodierung angezeigt.
  • Zeigen Sie auf eine beliebige Position im Diagrammbereich, um den Übereinstimmungswert anzuzeigen. Die Übereinstimmungswerte werden als Bereiche angegeben (0, 1–25, 26–50, 51–80, 81–99 und 100), wobei Null darauf hinweist, dass keine Übereinstimmung der Daten mit der Datenbank vorhanden ist. Das Diagramm zeigt außerdem den Prozentsatz der ermittelten übereinstimmenden Datensätze an (farbcodiert).
  • Klicken Sie auf einen Bereich im Diagramm, um die Daten anzuzeigen, die eine oder keine Übereinstimmung mit der Datenbank aufweisen.

Analyse internationaler Adressen

Anhand dieser Regel wird die Qualität Ihrer Adressdaten mithilfe der Datenbank des Global Address Validation-Moduls ermittelt. Gehen Sie wie folgt vor, um diese Regel auszuführen:
  • Installieren Sie die Datenbank von Global Address Validation, und definieren Sie sie in der Management Console als Ressource. Weitere Informationen finden Sie im Administratorhandbuch.
  • Konfigurieren Sie die Regel für die Analyse internationaler Adressen, indem Sie auf die Schaltfläche „Konfigurieren“ klicken und die folgenden Informationen eingeben:
    1. Addressing Engine-Datenbank: Wählen Sie die Datenbankressource von Global Address Validation aus, die in der Management Console konfiguriert ist.
    2. Felder AddressLine1 und Land: Ordnen Sie diese Felder den Spalten in der analysierten Tabelle zu.
    3. Ordnen Sie die Spalten in Ihrer Tabelle den Feldern LastLine, Ort, CitySubdivision, PostalCode, Bundesland/-staat, StateSubdivision und FirmName zu. Sie müssen Spaltennamen nicht unbedingt in alle Felder eingeben. Je spezifischer Ihre Angaben jedoch sind, desto besser fällt der Übereinstimmungswert aus.
Wenn Sie diese Regel auswählen, werden die Seite Ergebnisse der Datenprofilerstellung sowie die Registerkarte Adressenzusammenfassung angezeigt. Letztere zeigt die folgenden Informationen an:
  • Vertrauensverteilung internationaler Adressen: Der Übereinstimmungswert der Daten. Der Übereinstimmungswert ist farbcodiert. Zeigen Sie auf eine beliebige Position im Kreisdiagramm, um den Bereich des Übereinstimmungswertes (0, 1–25, 26–50, 51–80, 81–99 und 100) anzuzeigen, wobei Null darauf hinweist, dass keine Übereinstimmung der Daten in der Datenbank vorliegt. Klicken Sie auf einen Bereich im Diagramm, um eine Vorschau der übereinstimmenden oder nicht übereinstimmenden Daten anzuzeigen.
  • Genauigkeit internationaler Adressen: Hierbei handelt es sich um die Verteilung von Überprüfungsstufen von Adressen, z. B. Bundesland/-staat, Haus, Postleitzahl, Ort, Stadtteil und Straße.