Règles de profilage

Les règles de profilage effectuent différents types d’analyse de vos données. Lorsque vous configurez un profil, sélectionnez les règles de profilage qui effectuent les types d’analyse de données qui vous intéressent.

Cette section décrit les règles de profilage prises en charge dans Metadata Insights.

Analyse de caractères

Cette règle identifie les modèles, les scripts et les types de caractère des champs de type chaîne. Lorsque vous activez cette règle, vous obtenez ces informations pour les champs de type chaîne de vos données :

Fréquence : les expressions les plus utilisées dans la colonne de chaîne sélectionnée.
Distribution de scripts : les différents scripts identifiés dans la colonne de chaîne sélectionnée et leur nombre.
Longueurs de chaîne : distribution des longueurs de chaîne dans la colonne de chaîne sélectionnée.
Catégories de caractères : types de caractères de la colonne sélectionnée, tels que les lettres, la ponctuation et les nombres.
Motifs de texte : convertit les données de la colonne de chaîne en motif et affiche le motif, son nombre et son pourcentage d'occurrence. Le motif est déterminé à l’aide de cette règle :
- Les caractères majuscules latins sont remplacés par « A »
- Les caractères minuscules latins sont remplacés par « a »
- Les chiffres sont remplacés par « 9 »
- Les caractères de contrôle sont remplacés par « ĉ »

Analyse des motifs personnalisés

Cette règle identifie tout motif dans la colonne de chaîne. Vous pouvez configurer autant d'expressions régulières que vous le souhaitez pour effectuer une correspondance avec vos données. Pour configurer cette règle lors de la création d’un profil, cliquez sur l’icône Configurer et saisissez ces détails :

Clé : nom du motif à identifier
Valeur : expression régulière du motif
Par exemple, si vous souhaitez identifier les adresses électroniques dans les colonnes de chaînes, saisissez l’expression régulière ^(.+)@(.+)$ dans le champ Valeur et e-mail dans le champ Clé.
Pour ajouter une autre expression, cliquez sur l’icône Ajouter et ajoutez les détails de la paire clé/valeur suivante. Vous pouvez ajouter autant d’expressions que vous le souhaitez pour effectuer une correspondance avec vos données.

Lorsque vous activez cette règle, vous obtenez ces informations :

Validité : valeurs correspondant à au moins l'un des modèles d'expressions régulières de la règle.
Répartition des correspondances de modèles : répartition des enregistrements correspondant aux expressions régulières.

Analyse des dates

Cette règle détecte et valide les dates des colonnes de chaînes. Elle identifie également les modèles de date des colonnes et leur répartition. Cette analyse peut s'avérer utile pour détecter les entrées de date des colonnes erronées, par exemple, dans les données d'e-mail.

Si vous sélectionnez cette règle, la page Résultats de profilage des données affiche un onglet Résumé de date supplémentaire pour les colonnes de type chaîne qui comportent des dates. Cet onglet affiche ces détails :

Validité : valeurs valides et non valides.
Modèles de date : modèles de date détectés dans les colonnes sélectionnées, leur nombre total et le pourcentage de ce modèle dans le jeu de données.

Analyse des courriers électroniques

Cette règle détecte et valide les adresses électroniques et détermine la répartition des domaines électroniques dans la colonne de données sélectionnée.

Si vous sélectionnez cette règle, la page Résultats de profilage des données affiche un onglet Résumé de l'email supplémentaire affichant ces détails :

Validité : valeurs valides et non valides.
Distribution de domaines : les dix premiers domaines électroniques de la colonne de données sélectionnée.

Analyse des numéros de téléphone

Sélectionnez cette règle pour détecter et valider les numéros de téléphone et identifier les numéros de téléphone comme les numéros de ligne fixe, les numéros de téléphone portable ou tout autre type de numéro. Cette règle fournit également la répartition des numéros de téléphone par pays et par région. Vous devez configurer cette règle pour définir le pays par défaut à utiliser quand un numéro de téléphone ne comporte pas de code de pays.

Si vous sélectionnez cette règle, la page Résultats de profilage des données affiche un onglet Résumé du numéro de téléphone supplémentaire affichant ces détails :

Validité : numéros de téléphone valides et non valides.
Types de numéro de téléphone : types de numéro de téléphone tels que téléphone mobile, ligne terrestre, ligne fixe, VOIP, radiomessagerie, messagerie vocale ou numéro sans frais.
Numéros de téléphone par pays : répartition des numéros de téléphone détectés par pays.
Numéros de téléphone par région : répartition des numéros de téléphone détectés par région.

Analyse des cartes de crédit

Sélectionnez cette règle pour détecter et valider les numéros de carte de crédit et identifier les numéros de carte de crédit comme JCB, VISA, Diners Club (DINERS), MasterCard, Discover ou American Express (AMEX).

Si vous sélectionnez cette règle, la page Résultats de profilage des données affiche un onglet Résumé des cartes de crédit supplémentaire affichant ces détails :

Validité : numéros de carte de crédit valides et non valides.
Distribution de cartes de crédit : répartition par catégorie des cartes de crédit détectées.

Analyse Vehicle Identification Number (VIN)

Sélectionnez cette règle pour détecter et valider les numéros d'identification des véhicules. Cette règle fournit également la répartition des numéros d'identification des véhicules par pays.

Si vous sélectionnez cette règle, la page Résultats de profilage des données affiche un onglet Synthèse de VIN supplémentaire affichant ces détails :

Validité : numéros d'identification des véhicules valides et non valides.
Répartition de VIN par pays : répartition par pays des numéros d'identification des véhicules détectés.

Analyse Social Security Number (SSN)

Sélectionnez cette règle pour détecter et valider les numéros de sécurité sociale.

Si vous sélectionnez cette règle, la page Résultats de profilage des données affiche un onglet Synthèse de SSN supplémentaire affichant les numéros de sécurité sociale valides et non valides.

Analyse International Bank Account Number (IBAN)

Sélectionnez cette règle pour détecter et valider les numéros de comptes bancaires internationaux. Cette règle donne également la répartition des numéros de comptes bancaires internationaux par pays.

Si vous sélectionnez cette règle, la page Résultats de profilage des données affiche un onglet Synthèse d'IBAN supplémentaire affichant ces détails :

Validité : numéros de comptes bancaires internationaux valides et non valides.
Répartition d'IBAN par pays : répartition par pays des numéros de comptes bancaires internationaux détectés.

Analyse sémantique

Sélectionnez cette règle pour détecter les types de sémantique, tels que le prénom, la ville, le pays, les codes de pays ISO 2 et 3, le nom de famille et l'état. Cette règle peut vous aider à trouver des valeurs dans des colonnes incorrectes, telles que les noms de ville d'une colonne Pays.

Si vous sélectionnez cette règle, la page Résultats de profilage des données affiche un onglet Type de sémantique supplémentaire affichant les types de sémantique détectés et leur fréquence.

Analyse des adresses américaines

Cette règle détermine la qualité de vos données d’adresse à l’aide de la base de données U.S. du module Universal Addressing. Pour lancer cette règle, vous devez :

Installer la base de données U.S. du module Universal Addressing et la définir comme ressource dans Management Console. Pour plus d'informations sur l'ajout de cette ressource de base de données, reportez-vous au Guide d'administration.
Configurez la règle Analyse des adresses américaines en cliquant sur le bouton Configurer et en saisissant ces informations :
1. Base de données US Address Coder : sélectionnez la ressource de base de données du module Universal Addressing configurée dans Management Console.
2. Champ AddressLine1 à Champ AddressLine5 : mappez ces champs vers les colonnes de la table que vous analysez. Vous n’avez pas nécessairement besoin de saisir des noms de colonne dans tous les champs. Cependant, plus vous serez spécifique, meilleur sera le score de correspondance.
3. Mappez les colonnes de votre table vers les champs City, Country, USUrbanName, FirmName field, PostalCode et StateProvince.

Si vous sélectionnez cette règle, la page Résultats de profilage des données affiche l'onglet Résumé de l'adresse.

La légende sous le graphique affiche le score de correspondance des données ainsi que le codage couleur.
Pointez n'importe où dans la zone du graphique pour afficher le score de correspondance. Les scores se présentent sous forme de plages (0, 1-25, 26-50, 51-80, 81-99 et 100), avec zéro représentant l'absence de correspondance des données par rapport à la base de données. Le graphique affiche également le pourcentage d’enregistrements correspondants détectés (codés par couleur).
Cliquez sur la zone du graphique pour afficher les données correspondant ou non à la base de données.

Analyse des adresses internationales

Cette règle détermine la qualité de vos données d’adresse à l’aide de la base de données du module Global Address Validation. Pour lancer cette règle, vous devez :

Installez la base de données Global Address Validation et définissez-la comme ressource dans Management Console. Pour plus d'informations, reportez-vous au Guide d'administration.
Configurez la règle Analyse des adresses internationales en cliquant sur le bouton Configurer et en saisissant ces informations :
1. Base de données Addressing Engine : sélectionnez la ressource de base de données Global Address Validation configurée dans Management Console.
2. Champ AddressLine1 et champ Country : mappez ces champs vers les colonnes de la table que vous analysez.
3. Mappez les colonnes de votre table vers les champs LastLine, City, CitySubdivision, PostalCode, State , StateSubdivision et FirmName. Vous n’avez pas nécessairement besoin de saisir des noms de colonne dans tous les champs. Cependant, plus vous serez spécifique, meilleur sera le score de correspondance.

Si vous sélectionnez cette règle, la page Résultats de profilage des données affiche l'onglet Résumé de l'adresse, qui affiche :

Distribution en confiance des adresses internationales : score de correspondance des données. Le score est codé par couleur. Pointez n'importe où dans le graphique en forme de donut pour afficher les plages de scores (0, 1-25, 26-50, 51-80, 81-99 et 100), avec zéro représentant l'absence de correspondance des données dans la base de données. Cliquez sur la zone du graphique pour obtenir un aperçu des données en correspondance ou non.
Précision des adresses internationales : répartition des niveaux de validation des adresses, par exemple, état, résidence, code postal, ville, sous-division de ville et rue.