Preparación de los datos

El primer paso para utilizar la categorización de texto es preparar el archivo de entrada y el archivo de prueba. Para ello, debe estructurar los datos como valores separados por tabuladores en ambos archivos. Los archivos deben tener detalles en este formato:
  • Codificación UFT-8
  • Datos separados por tabuladores en dos columnas, donde la primera columna contiene el nombre de categoría (por ejemplo: "Paciente" o "Proveedor") y la segunda columna tiene los datos de cada categoría (como se muestra en el ejemplo a continuación)

Los datos deben verse así:

Patient     John Smith dob04181963 224 Main St. Atl GA 30311 
Provider    Mark Johnson M.D. NPI5489512047 412 Washington Atl GA 30301