Détails des colonnes dans les résultats de profilage

Selon la colonne sur laquelle vous cliquez dans le volet gauche de la page Résultats du profilage de données, ces informations sont affichées :

Complétude : pourcentage d'exhaustivité des données de la colonne
Unicité : valeurs uniques, non uniques et distinctes détectées dans les données de la colonne
Longueur mini. et Longueur maxi. de caractères au cas où les données de la colonne constituent une chaîne
Déviation Standard (Dév. std), valeurs maximale (Maxi.), minimale (Mini.), Variance et Moyenne si la colonne comporte des données numériques.
Histogramme représentant la distribution des données si la colonne comporte des données numériques
Pourcentage dans le cas où la colonne comporte des données numériques
Fréquence des données de la colonne
Longueurs de chaîne au cas où les données de la colonne sont de type chaîne
Distribution de scripts au cas où les données de la colonne sont de type chaîne
Fréquence de modèle de texte au cas où les données de la colonne sont de type chaîne
Catégories de caractères : affiche graphiquement les fréquences des types de caractères latins détectés dans la colonne de chaîne sélectionnée. Les différentes catégories sont :
- Casse : Majuscules, Minuscules et Casse mixte
- Types de données de caractères : Alphabétique, Numérique et Alphanumérique
- Contient des espaces : Un seul espace, Plusieurs espaces et Espaces de fin ou de début
- Caractère spécial : Contient ou Ne contient pas.
  Remarque : Seuls les caractères spéciaux définis lors de la configuration de la règle Analyse des caractères sont pris en compte ici.

Affichage des valeurs atypiques

Vous pouvez afficher les valeurs atypiques détectées dans une colonne en cliquant sur l'onglet Valeurs atypiques. Cet onglet affiche une structure tabulaire des valeurs atypiques détectées par catégorie dans votre colonne. Des détails tels que Modèle, Longueur, Valeur ou Fréquence, Plage calculée et Occurrence sont également affichés.

Affichage de la page Suggestions

Cette page affiche une vue complète des différentes suggestions générées pour vos données. Vous pouvez choisir de sélectionner ces suggestions pour nettoyer vos données.

Cette page est divisée en deux parties :

Un en-tête affichant les détails du profil - Ces détails sont affichés pour le profil analysé :
- Nom de profil : nom du profil
- Description : brève description du profil
- Démarré : date (aaaa/mm/jj), heure (hh:mm:ss) et période (AM ou PM) d'initialisation de l'analyse du profil.
- Source de données : source de données du profil en cours d’analyse. Il peut s'agir d'un Physical Model ou d'un Logical Model ou encore d'une Data Source Connection directe.
- Utilisateur : l’utilisateur qui a créé le profil
- Tables : nombre de tables du modèle sélectionné
- Type de source de données : indique si la source de données du profil est un modèle ou une base de données.
- Enregistrements : nombre total d'enregistrements analysés
- Bouton Statistiques : vous permet d'accéder à la page Résultats de profiling des données. Pour plus d'informations, reportez-vous à la section Affichage des suggestions sur la page Résultats de profiling des données.
La deuxième section affiche le nom de votre table avec un bouton Recommandation. Si vous cliquez sur ce bouton, des Scripts Groovy de suggestions relatifs à votre table s'affichent. En développant la table à l'aide de l'icône , vous pouvez afficher des suggestions par colonne pour votre table.

Des détails tels que Suggestions et leurs Descriptions correspondantes sont affichés sous forme de tableau pour différentes colonnes sur lesquelles des actions suggestives ont été générées. Le bouton Afficher les détails affiche un aperçu des statistiques et des options pour vos données. Vous pouvez sélectionner une suggestion ici en cliquant sur le bouton Sélectionner une suggestion ou supprimer une suggestion déjà appliquée en cliquant sur le bouton Supprimer la suggestion.

L'icône signifie que la sélection d'une suggestion a réussi. Vous pouvez choisir d'afficher et de copier le script groovy de toute suggestion en cliquant sur le bouton Recommandation correspondant.

Remarque : Pour télécharger et copier le Script Groovy pour toutes les colonnes d'une table donnée pour laquelle des suggestions sont sélectionnées, cliquez sur le bouton Recommandation placé à côté du nom de table. Si vous cliquez sur ce bouton, une fenêtre Recommandation s'affiche. Cette fenêtre affiche des détails tels que le nom de table, le nom de colonne et la suggestion générée, suivis du script groovy.

Vous pouvez afficher et sélectionner des suggestions de statistiques indépendantes à partir de la page Résultats de profiling des données. Examinez les statistiques de vos données et sélectionnez toute suggestion en fonction de vos besoins. Pour plus d'informations, reportez-vous à la section Affichage des suggestions sur la page Résultats de profiling des données.

Affichage des suggestions sur la page Résultats de profiling des données

Vous pouvez afficher les suggestions fournies pour nettoyer vos données. Ces suggestions sont générées à partir des statistiques de vos données. Vous pouvez choisir de les Sélectionner. Cliquez sur le bouton Suggestions ; une nouvelle fenêtre apparaît avec des suggestions. Vous pouvez passer à la suggestion suivante en cliquant sur l'icône

Remarque : Pour afficher les données transformées après avoir sélectionné une option pour toute suggestion, cliquez sur l'icône

. Si vous souhaitez sélectionner la suggestion, cliquez sur le bouton Sélectionner la suggestion ; un message s'affiche lors de la sélection de la suggestion.

Suggestions pour l'onglet Résumé

Pour Catégories de caractères, vous pouvez afficher l'une de ces Suggestions en fonction de vos données :

Type de données de caractères : les types de données de caractère tels que numérique, alphanumérique et alphabétique détectés dans vos données sont affichés sous forme de tableau, avec leurs fréquences. Dans la liste des options, vous pouvez choisir de Découper ou d'Éliminer ces valeurs ou encore de les Définir sur une valeur par défaut. Vous devez spécifier cette valeur dans la zone de texte qui apparaît lors de la sélection de cette option.
Supprimer les espaces : les espaces redondants tels que Un seul espace, Plusieurs espaces et Espaces de fin ou de début présents dans vos données sont affichés sous forme de tableau, avec leurs fréquences. Vous pouvez choisir l'une de ces options en fonction de vos besoins :
- Rogner les espaces - Cette option supprime tous les espaces de fin ou de début présents dans vos données.
- Minimiser les espaces blancs - Cette option supprime les espaces redondants entre deux termes et également les espaces de début ou de fin.
- Supprimer les espaces - Cette option supprime tous les espaces présents dans vos données.
Standardiser la casse : vous pouvez régulariser vos données en standardisant la casse de vos données, par exemple, en sélectionnant Case mixte, Majuscules ou Minuscules, grâce à cette option. Vous pouvez choisir de remplacer la casse de vos données par des Minuscules ou des Majuscules, pour nettoyer vos données et améliorer leur uniformité et leur lisibilité.
Supprimer les caractères spéciaux : vous pouvez choisir de supprimer tous les caractères spéciaux redondants présents dans vos données via cette option. Les caractères spéciaux détectés sont affichés sous la section Options dans une zone de texte. Pour nettoyer vos données, vous pouvez sélectionner les caractères spéciaux à supprimer et supprimer les caractères que vous souhaitez conserver en utilisant la touche retour arrière dans la zone de texte.
Supprimer les caractères de contrôle : vous pouvez supprimer tous les caractères de contrôle non imprimables redondants présents dans vos données au moyen de cette option. Les caractères de contrôle détectés dans vos données sont affichés dans la section Statistiques ; sélectionnez l'option Supprimer les caractères de contrôle et appliquez cette suggestion pour nettoyer davantage vos données.

Pour Unicité, vous verrez cette suggestion :

Créer un type sémantique : vous pouvez catégoriser vos données distinctes dans un type sémantique tel que Sexe, Prénom, Nom de famille, Pays et Téléphone. Cliquez sur le graphique de statistiques des données distinctes pour afficher un aperçu de vos données. Téléchargez ces données et créez des types sémantiques via Gestion des tables. Pour plus d'informations sur la gestion des tables, voir Présentation des tables de recherche.

Pour Exhaustivité, vous verrez cette suggestion :

Gestion des valeurs nulles : vous pouvez définir les chaînes nulles et vides présentes dans vos données sur une valeur par défaut. Cela augmente l'uniformité et l'exhaustivité de vos données. Les fréquences des chaînes Complète, Nulle et Vide sont affichées sous forme de tableau dans la section Statistiques. Saisissez la valeur par défaut souhaitée dans la zone de texte Options et sélectionnez cette suggestion.

Suggestions pour l'onglet Résumé de la date

Pour Modèles de date, vous verrez cette suggestion :

Normailiser la date : vous pouvez définir les formats des dates présentes dans vos données pour améliorer la cohérence de vos données. Les fréquences des différents formats de date détectés dans vos données sont affichées sous forme de tableau. Sélectionnez le format souhaité dans le menu déroulant format de date placé sous la section Options et sélectionnez cette suggestion.

Suggestions pour l'onglet de Modèle personnalisé

Pour Modèles correspondants, vous verrez cette suggestion :

Nettoyage de modèle : vous pouvez supprimer les valeurs de vos données qui ne suivent pas le modèle personnalisé que vous avez spécifié lors de la configuration d'un profil. Pour de plus amples informations sur les modèles personnalisés, voir Analyse des motifs personnalisés. La catégorie avec la fréquence la plus élevée est traitée comme référence ; d'autres statistiques lui sont associées. Vous pouvez sélectionner l'une des options suivantes pour les statistiques ne correspondant pas :

Définissez-les sur une valeur par défaut. Saisissez la valeur par défaut dans la zone de texte fournie.
Définissez-les sur null.

Après avoir sélectionné l'option souhaitée, sélectionnez cette suggestion pour nettoyer vos données.

Suggestions pour l'onglet Valeur aberrante

Pour les Valeurs de type sémantique aberrantes, vous verrez cette suggestion :

Séparation des types sémantiques : vous pouvez déplacer toute valeur de type sémantique aberrante présente dans une colonne dans une colonne distincte et améliorer ainsi l'uniformité et la clarté de vos données. La fréquence des différentes valeurs aberrantes détectées dans vos données est affichée sous forme de tableau. Vous pouvez choisir de déplacer toute valeur aberrante détectée dans une colonne personnalisée distincte et de séparer les types sémantiques.

Sélectionnez les valeurs aberrantes que vous souhaitez déplacer dans une colonne distincte, saisissez le nom personnalisé de la colonne dans la zone de texte et sélectionnez cette suggestion.

Remarque : Lorsque vous fermez la fenêtre de suggestions après avoir sélectionné les suggestions de votre choix, une invite Afficher les recommandations s'affiche. Si vous cliquez sur Oui, vous accédez à la page Suggestions. Vous pouvez copier le script groovy à partir de cette page et l’utiliser dans Enterprise Designer. Pour plus d'informations, reportez-vous à la section Affichage de la page Suggestions.