Read from Documents

Read from Documents es una etapa de origen que lee datos de entrada sin estructura desde varios formatos de archivo y extrae el contenido. Las fuentes posibles incluyen documentos legales, comentarios del usuario, revisiones de productos, artículos noticiosos, blogs, redes sociales, etc. Read from Documents también extrae campos de metadatos, como la fecha de creación y el autor. Después de extraer los datos, estos se pueden utilizar para varios tipos de procesamientos, lo que incluye extracción de entidades y manipulación de cadenas, entre otras. Los datos también se pueden usar para construir índices de búsqueda para buscar texto sin estructura.

Nota: Cada documento se considera como un registro para esta etapa.