Introducción a la Categorización de texto

La categorización de texto, también conocida como clasificación de texto, es el proceso de asignación de categorías personalizadas al contenido no estructurado o texto sin formato, como correos electrónicos, artículos noticiosos y comentarios, según cuánto de dicho contenido coincide con la categoría. La categorización se puede categorizar por tema, autor, fecha o casi cualquier sistema de clasificación que se conciba.

Para crear su propio categorizador, debe capacitar un modelo de categorizador con sus datos y categorías. El capacitador analiza los datos y guarda la información que obtiene en el proceso de capacitación. Luego analiza el contenido y determina la categoría a la cual pertenece el contenido.

La función de categorización de texto utiliza un proceso de categorización estadística del texto. Esto aplica métodos de aprendizaje de máquina para aprender reglas de clasificación automática basadas en documentos de capacitación rotulados por humanos.

Dado que es posible aplicar la categorización que elija, primero debe "capacitar" al modelo para que "aprenda" las categorías. Luego de esto, puede usar ese modelo en la etapa Text Categorizer para categorizar los datos no estructurados.

Spectrum™ Technology Platform utiliza los comandos de la utilidad de administración para administrar modelos de categorización de texto. Para obtener una descripción de estos comandos, consulte Comandos de la Utilidad de administración.