Salida

La etapa Read from Documents posee dos puertos de salida. Un puerto captura los datos leídos por la etapa y devueltos a partir de los criterios ingresados. Estos datos pueden incluir texto sin formato o metadatos (como autor, idioma, fecha de creación, etc.). Este puerto se puede conectar a cualquier etapa que lea datos entrantes, como por ejemplo, Write to File o Write to XML, así como las etapas principales Validate Address o Write to Search Index. También se puede conectar a la etapa Information Extractor, si desea que se devuelva información acerca de ciertos tipos de entidades presentes en el documento. Cuando selecciona el tipo de extracción Documento los resultados incluirán datos planos; cuando selecciona el tipo de extracción Página o Selección, los resultados incluirán datos jerárquicos.

El otro puerto recopila todos los recursos que el flujo de datos no procesó correctamente. Este se denomina Puerto de error, y los registros que pasan por este puerto hacia el receptor se consideran incorrectos. Capturar registros incorrectos le puede ayudar a identificar el problema con aquellos registros. Cuando adjunta un receptor al puerto de error, el archivo de salida que se origina contendrá todos los campos de los registros malformados. También incluirá el campo Motivo que especifica el motivo por el que falló el registro.

Tabla 1. Resultados de Unstructured Reader
Nombre de campo	Descripción / Valores válidos
Autor	Normalmente contiene el nombre de la persona que creó o actualizó el documento. Esta información forma parte de los metadatos del documento.
Bookmark	Contiene todos los marcadores del archivo de entrada PDF. Solo para tipos de extracción de marcador.
BookmarkNo	Contiene todos los marcadores del archivo de entrada PDF. Solo para tipos de extracción de marcador.
ContentLength	Indica la longitud del documento. Este valor varía según el tipo de extracción seleccionada: Documento El número de páginas en el documento. Página "1", para representar la única página del documento.
Contenido	Varía según el tipo de extracción. Por ejemplo, los tipos de extracción de documento generarán el documento completo como datos planos. Los tipos de extracción de página, selección y marcadores generarán datos jerárquicos.
ContentType	Indica el tipo de documento que se leyó, por ejemplo, PDF, .txt, etc.
Creador	Normalmente contiene el nombre de la persona que creó el documento. Esta información forma parte de los metadatos del documento.
Fecha	Indica la fecha de creación o última actualización del documento.
Palabras clave	Contiene todas las palabras clave proporcionadas en los metadatos del documento.
Idioma	Indica el idioma en que se escribió el documento.
NPages	Indica el número de páginas en el documento.
PageContents	Incluye los contenidos de las páginas seleccionadas. Solo para tipos de extracción de página.
PageNo	Contiene el número de página para el marcador. Solo para tipos de extracción de página.
Elemento principal	Contiene la ruta del marcador, similar a XPath de un archivo XML. Solo para tipos de extracción de marcador.
ResourceName	Indica el nombre de archivo del documento.
SectionContents	Incluye los contenidos de la sección seleccionada. Solo para tipos de extracción de selección.
SectionNo	Indica el número de la sección dentro del documento. Solo para tipos de extracción de selección.
Asunto	Contiene el asunto del documento que se proporcionó en los metadatos del documento.
Título	Contiene el título del documento que se proporcionó en los metadatos del documento.