Détails des colonnes dans les résultats de profilage
- Complétude : pourcentage d'exhaustivité des données de la colonne
- Unicité : valeurs uniques, non uniques et distinctes détectées dans les données de la colonne
- Longueur mini. et Longueur maxi. de caractères au cas où les données de la colonne constituent une chaîne
- Déviation Standard (Dév. std), valeurs maximale (Maxi.), minimale (Mini.), Variance et Moyenne si la colonne comporte des données numériques.
- Histogramme représentant la distribution des données si la colonne comporte des données numériques
- Pourcentage dans le cas où la colonne comporte des données numériques
- Fréquence des données de la colonne
- Longueurs de chaîne au cas où les données de la colonne sont de type chaîne
- Distribution de scripts au cas où les données de la colonne sont de type chaîne
- Fréquence de modèle de texte au cas où les données de la colonne sont de type chaîne
- Catégories de caractères : affiche graphiquement les fréquences des types de caractères latins détectés dans la colonne de chaîne sélectionnée. Les différentes catégories sont :
- Casse : Majuscules, Minuscules et Casse mixte
- Types de données de caractères : Alphabétique, Numérique et Alphanumérique
- Contient des espaces : Un seul espace, Plusieurs espaces et Espaces de fin ou de début
- Caractère spécial : Contient ou Ne contient pas.Remarque : Seuls les caractères spéciaux définis lors de la configuration de la règle Analyse des caractères sont pris en compte ici.
Affichage des valeurs atypiques
Vous pouvez afficher les valeurs atypiques détectées dans une colonne en cliquant sur l'onglet Valeurs atypiques. Cet onglet affiche une structure tabulaire des valeurs atypiques détectées par catégorie dans votre colonne. Des détails tels que Modèle, Longueur, Valeur ou Fréquence, Plage calculée et Occurrence sont également affichés.
Affichage de la page Suggestions
Cette page est divisée en deux parties :
- Un en-tête affichant les détails du profil - Ces détails sont affichés pour le profil analysé :
- Nom de profil : nom du profil
- Description : brève description du profil
- Démarré : date (aaaa/mm/jj), heure (hh:mm:ss) et période (AM ou PM) d'initialisation de l'analyse du profil.
- Source de données : source de données du profil en cours d’analyse. Il peut s'agir d'un Physical Model ou d'un Logical Model ou encore d'une Data Source Connection directe.
- Utilisateur : l’utilisateur qui a créé le profil
- Tables : nombre de tables du modèle sélectionné
- Type de source de données : indique si la source de données du profil est un modèle ou une base de données.
- Enregistrements : nombre total d'enregistrements analysés
- Bouton Statistiques : vous permet d'accéder à la page Résultats de profiling des données. Pour plus d'informations, reportez-vous à la section Affichage des suggestions sur la page Résultats de profiling des données.
- La deuxième section affiche le nom de votre table avec un bouton Recommandation. Si vous cliquez sur ce bouton, des Scripts Groovy de suggestions relatifs à votre table s'affichent. En développant la table à l'aide de l'icône , vous pouvez afficher des suggestions par colonne pour votre table.
Vous pouvez afficher et sélectionner des suggestions de statistiques indépendantes à partir de la page Résultats de profiling des données. Examinez les statistiques de vos données et sélectionnez toute suggestion en fonction de vos besoins. Pour plus d'informations, reportez-vous à la section Affichage des suggestions sur la page Résultats de profiling des données.
Affichage des suggestions sur la page Résultats de profiling des données
Suggestions pour l'onglet Résumé
- Type de données de caractères : les types de données de caractère tels que numérique, alphanumérique et alphabétique détectés dans vos données sont affichés sous forme de tableau, avec leurs fréquences. Dans la liste des options, vous pouvez choisir de Découper ou d'Éliminer ces valeurs ou encore de les Définir sur une valeur par défaut. Vous devez spécifier cette valeur dans la zone de texte qui apparaît lors de la sélection de cette option.
- Supprimer les espaces : les espaces redondants tels que Un seul espace, Plusieurs espaces et Espaces de fin ou de début présents dans vos données sont affichés sous forme de tableau, avec leurs fréquences. Vous pouvez choisir l'une de ces options en fonction de vos besoins :
- Rogner les espaces - Cette option supprime tous les espaces de fin ou de début présents dans vos données.
- Minimiser les espaces blancs - Cette option supprime les espaces redondants entre deux termes et également les espaces de début ou de fin.
- Supprimer les espaces - Cette option supprime tous les espaces présents dans vos données.
- Standardiser la casse : vous pouvez régulariser vos données en standardisant la casse de vos données, par exemple, en sélectionnant Case mixte, Majuscules ou Minuscules, grâce à cette option. Vous pouvez choisir de remplacer la casse de vos données par des Minuscules ou des Majuscules, pour nettoyer vos données et améliorer leur uniformité et leur lisibilité.
- Supprimer les caractères spéciaux : vous pouvez choisir de supprimer tous les caractères spéciaux redondants présents dans vos données via cette option. Les caractères spéciaux détectés sont affichés sous la section Options dans une zone de texte. Pour nettoyer vos données, vous pouvez sélectionner les caractères spéciaux à supprimer et supprimer les caractères que vous souhaitez conserver en utilisant la touche retour arrière dans la zone de texte.
- Supprimer les caractères de contrôle : vous pouvez supprimer tous les caractères de contrôle non imprimables redondants présents dans vos données au moyen de cette option. Les caractères de contrôle détectés dans vos données sont affichés dans la section Statistiques ; sélectionnez l'option Supprimer les caractères de contrôle et appliquez cette suggestion pour nettoyer davantage vos données.
Créer un type sémantique : vous pouvez catégoriser vos données distinctes dans un type sémantique tel que Sexe, Prénom, Nom de famille, Pays et Téléphone. Cliquez sur le graphique de statistiques des données distinctes pour afficher un aperçu de vos données. Téléchargez ces données et créez des types sémantiques via Gestion des tables. Pour plus d'informations sur la gestion des tables, voir Présentation des tables de recherche.
Gestion des valeurs nulles : vous pouvez définir les chaînes nulles et vides présentes dans vos données sur une valeur par défaut. Cela augmente l'uniformité et l'exhaustivité de vos données. Les fréquences des chaînes Complète, Nulle et Vide sont affichées sous forme de tableau dans la section Statistiques. Saisissez la valeur par défaut souhaitée dans la zone de texte Options et sélectionnez cette suggestion.
Suggestions pour l'onglet Résumé de la date
Pour Modèles de date, vous verrez cette suggestion :
Normailiser la date : vous pouvez définir les formats des dates présentes dans vos données pour améliorer la cohérence de vos données. Les fréquences des différents formats de date détectés dans vos données sont affichées sous forme de tableau. Sélectionnez le format souhaité dans le menu déroulant format de date placé sous la section Options et sélectionnez cette suggestion.
Suggestions pour l'onglet de Modèle personnalisé
Pour Modèles correspondants, vous verrez cette suggestion :
- Définissez-les sur une valeur par défaut. Saisissez la valeur par défaut dans la zone de texte fournie.
- Définissez-les sur null.
Après avoir sélectionné l'option souhaitée, sélectionnez cette suggestion pour nettoyer vos données.
Suggestions pour l'onglet Valeur aberrante
Pour les Valeurs de type sémantique aberrantes, vous verrez cette suggestion :
Séparation des types sémantiques : vous pouvez déplacer toute valeur de type sémantique aberrante présente dans une colonne dans une colonne distincte et améliorer ainsi l'uniformité et la clarté de vos données. La fréquence des différentes valeurs aberrantes détectées dans vos données est affichée sous forme de tableau. Vous pouvez choisir de déplacer toute valeur aberrante détectée dans une colonne personnalisée distincte et de séparer les types sémantiques.Sélectionnez les valeurs aberrantes que vous souhaitez déplacer dans une colonne distincte, saisissez le nom personnalisé de la colonne dans la zone de texte et sélectionnez cette suggestion.