Salida
La etapa Read from Documents posee dos puertos de salida. Un puerto captura los datos leídos por la etapa y devueltos a partir de los criterios ingresados. Estos datos pueden incluir texto sin formato o metadatos (como autor, idioma, fecha de creación, etc.). Este puerto se puede conectar a cualquier etapa que lea datos entrantes, como por ejemplo, Write to File o Write to XML, así como las etapas principales Validate Address o Write to Search Index. También se puede conectar a la etapa Information Extractor, si desea que se devuelva información acerca de ciertos tipos de entidades presentes en el documento. Cuando selecciona el tipo de extracción Documento los resultados incluirán datos planos; cuando selecciona el tipo de extracción Página o Selección, los resultados incluirán datos jerárquicos.
El otro puerto recopila todos los recursos que el flujo de datos no procesó correctamente. Este se denomina Puerto de error, y los registros que pasan por este puerto hacia el receptor se consideran incorrectos. Capturar registros incorrectos le puede ayudar a identificar el problema con aquellos registros. Cuando adjunta un receptor al puerto de error, el archivo de salida que se origina contendrá todos los campos de los registros malformados. También incluirá el campo Motivo que especifica el motivo por el que falló el registro.
Nombre de campo |
Descripción / Valores válidos |
---|---|
Autor |
Normalmente contiene el nombre de la persona que creó o actualizó el documento. Esta información forma parte de los metadatos del documento. |
Bookmark |
Contiene todos los marcadores del archivo de entrada PDF. Solo para tipos de extracción de marcador. |
BookmarkNo |
Contiene todos los marcadores del archivo de entrada PDF. Solo para tipos de extracción de marcador. |
ContentLength |
Indica la longitud del documento. Este valor varía según el tipo de extracción seleccionada:
|
Contenido |
Varía según el tipo de extracción. Por ejemplo, los tipos de extracción de documento generarán el documento completo como datos planos. Los tipos de extracción de página, selección y marcadores generarán datos jerárquicos. |
ContentType |
Indica el tipo de documento que se leyó, por ejemplo, PDF, .txt, etc. |
Creador |
Normalmente contiene el nombre de la persona que creó el documento. Esta información forma parte de los metadatos del documento. |
Fecha |
Indica la fecha de creación o última actualización del documento. |
Palabras clave |
Contiene todas las palabras clave proporcionadas en los metadatos del documento. |
Idioma |
Indica el idioma en que se escribió el documento. |
NPages |
Indica el número de páginas en el documento. |
PageContents |
Incluye los contenidos de las páginas seleccionadas. Solo para tipos de extracción de página. |
PageNo |
Contiene el número de página para el marcador. Solo para tipos de extracción de página. |
Elemento principal |
Contiene la ruta del marcador, similar a XPath de un archivo XML. Solo para tipos de extracción de marcador. |
ResourceName |
Indica el nombre de archivo del documento. |
SectionContents |
Incluye los contenidos de la sección seleccionada. Solo para tipos de extracción de selección. |
SectionNo |
Indica el número de la sección dentro del documento. Solo para tipos de extracción de selección. |
Asunto |
Contiene el asunto del documento que se proporcionó en los metadatos del documento. |
Título |
Contiene el título del documento que se proporcionó en los metadatos del documento. |