Préparation des données

La première étape de l'utilisation de la catégorisation de texte est la préparation de votre fichier d'entrée et de votre fichier de test. Pour ce faire, vous devez structurer les données sous forme de valeurs séparées par des onglets dans les deux fichiers. Les détails des fichiers doivent se présenter au format suivant :
  • Codage UFT-8
  • Données séparées par des onglets dans deux colonnes, où la première colonne contient le nom de catégorie (par exemple : « Patient » ou « Fournisseur ») et la deuxième colonne dispose des données pour chaque catégorie (comme dans l’exemple ci-dessous)

Vos données devraient prendre la forme suivante :

Patient     John Smith dob04181963 224 Main St. Atl GA 30311 
Provider    Mark Johnson M.D. NPI5489512047 412 Washington Atl GA 30301