Componentes de Information Extraction

El módulo Information Extraction incluye las siguientes etapas.

Read From Documents: lee datos de entrada sin estructura desde varios formatos de archivo y extrae el contenido.
Entity Extractor: extrae entidades tales como nombres y direcciones desde datos sin estructura pasados como cadenas de caracteres.
Text Categorizer: asigna categorías personalizadas al contenido no estructurado o texto sin formato (como correos electrónicos, artículos noticiosos y comentarios) según cuánto de dicho contenido tiene el material para esa categoría.
Relationship Extractor: extrae relaciones entre entidades.