Salida

La etapa Read from Documents posee dos puertos de salida. Un puerto captura los datos leídos por la etapa y devueltos a partir de los criterios ingresados. Estos datos pueden incluir texto sin formato o metadatos (como autor, idioma, fecha de creación, etc.). Este puerto se puede conectar a cualquier etapa que lea datos entrantes, como por ejemplo, Write to File o Write to XML, así como las etapas principales Validate Address o Write to Search Index. También se puede conectar a la etapa Information Extractor, si desea que se devuelva información acerca de ciertos tipos de entidades presentes en el documento. Cuando selecciona el tipo de extracción Documento los resultados incluirán datos planos; cuando selecciona el tipo de extracción Página o Selección, los resultados incluirán datos jerárquicos.

El otro puerto recopila todos los recursos que el flujo de datos no procesó correctamente. Este se denomina Puerto de error, y los registros que pasan por este puerto hacia el receptor se consideran incorrectos. Capturar registros incorrectos le puede ayudar a identificar el problema con aquellos registros. Cuando adjunta un receptor al puerto de error, el archivo de salida que se origina contendrá todos los campos de los registros malformados. También incluirá el campo Motivo que especifica el motivo por el que falló el registro.

Tabla 1. Resultados de Unstructured Reader

Nombre de campo

Descripción / Valores válidos

Autor

Normalmente contiene el nombre de la persona que creó o actualizó el documento. Esta información forma parte de los metadatos del documento.

Bookmark

Contiene todos los marcadores del archivo de entrada PDF. Solo para tipos de extracción de marcador.

BookmarkNo

Contiene todos los marcadores del archivo de entrada PDF. Solo para tipos de extracción de marcador.

ContentLength

Indica la longitud del documento. Este valor varía según el tipo de extracción seleccionada:

Documento
El número de páginas en el documento.
Página
"1", para representar la única página del documento.

Contenido

Varía según el tipo de extracción. Por ejemplo, los tipos de extracción de documento generarán el documento completo como datos planos. Los tipos de extracción de página, selección y marcadores generarán datos jerárquicos.

ContentType

Indica el tipo de documento que se leyó, por ejemplo, PDF, .txt, etc.

Creador

Normalmente contiene el nombre de la persona que creó el documento. Esta información forma parte de los metadatos del documento.

Fecha

Indica la fecha de creación o última actualización del documento.

Palabras clave

Contiene todas las palabras clave proporcionadas en los metadatos del documento.

Idioma

Indica el idioma en que se escribió el documento.

NPages

Indica el número de páginas en el documento.

PageContents

Incluye los contenidos de las páginas seleccionadas. Solo para tipos de extracción de página.

PageNo

Contiene el número de página para el marcador. Solo para tipos de extracción de página.

Elemento principal

Contiene la ruta del marcador, similar a XPath de un archivo XML. Solo para tipos de extracción de marcador.

ResourceName

Indica el nombre de archivo del documento.

SectionContents

Incluye los contenidos de la sección seleccionada. Solo para tipos de extracción de selección.

SectionNo

Indica el número de la sección dentro del documento. Solo para tipos de extracción de selección.

Asunto

Contiene el asunto del documento que se proporcionó en los metadatos del documento.

Título

Contiene el título del documento que se proporcionó en los metadatos del documento.