Componentes de Information Extraction

El módulo Information Extraction incluye las siguientes etapas.

  • Read From Documents: lee datos de entrada sin estructura desde varios formatos de archivo y extrae el contenido.
  • Entity Extractor: extrae entidades tales como nombres y direcciones desde datos sin estructura pasados como cadenas de caracteres.
  • Text Categorizer: asigna categorías personalizadas al contenido no estructurado o texto sin formato (como correos electrónicos, artículos noticiosos y comentarios) según cuánto de dicho contenido tiene el material para esa categoría.
  • Relationship Extractor: extrae relaciones entre entidades.