Sortie

Le stage Read from Documents comporte deux ports sortants. Un port capture les données lues par le stage et renvoyées en fonction des critères saisis. Il peut s'agir de texte en clair ou de métadonnées (comme l'auteur, la langue, la date de création, etc.). Ce port peut être connecté à tout stage capable de lire les données entrantes, comme Write to File ou Write to XML, ainsi qu'à des stages primaires comme Validate Address ou Write to Search Index. Il peut également être connecté au stage Information Extractor si vous souhaitez renvoyer des informations sur certains types d'entité qui se trouvent dans le document. Lorsque vous sélectionnez le type d'extraction Document, la sortie contient des données plates ; lorsque vous sélectionnez le type d'extraction Page ou Selection, la sortie contient des données hiérarchiques.

L'autre port collecte tout enregistrement que le flux de données n'a pas correctement traité. Il s'agit du port d'erreur et les enregistrements arrivant dans le collecteur de données, via ce port, sont considérés comme non conformes. Capturer des enregistrements non conformes peut vous aider à identifier le problème avec ces enregistrements. Lorsque vous associez un collecteur de données au port d'erreur, le fichier de sortie qui en résulte contient tous les champs des enregistrements non conformes. Il contiendra également un champ Raison qui indique la raison pour laquelle l'enregistrement a échoué.

Tableau 1. Sortie d'Unstructured Reader
Nom du champ	Description/Valeurs valides
Author	Contient généralement le nom de la personne qui a créé ou mis à jour le document. Ces informations font partie des métadonnées du document.
Bookmark	Contient tous les signets du fichier d'entrée au format PDF. Pour les types d'extraction Bookmarks uniquement.
BookmarkNo	Contient tous les signets du fichier d'entrée au format PDF. Pour les types d'extraction Bookmarks uniquement.
ContentLength	Indique la longueur du document. Cette valeur varie suivant le type d'extraction sélectionné : Document Nombre de pages du document. Page « 1 », pour représenter une seule page de contenu.
Table des matières	Varie en fonction du type d'extraction. Par exemple, les types d'extraction Document sortent le document tout entier sous forme de données plates. Les types d'extraction Page, Selection et Bookmarks sortent des données hiérarchiques.
ContentType	Indique le type de document lu, comme PDF, .txt, etc.
Creator	Contient généralement le nom de la personne qui a créé le document. Ces informations font partie des métadonnées du document.
Date	Indique la date de création ou de la dernière mise à jour du document.
Keywords	Contient tous le mots clés fournis dans les métadonnées du document.
Langue	Indique la langue dans laquelle le document a été rédigé.
NPages	Indique le nombre de pages du document.
PageContents	Contient le contenu de la ou des pages sélectionnées. Pour les types d'extraction Page uniquement.
PageNo	Contient le numéro de page du signet. Pour les types d'extraction Page uniquement.
Parent	Contient le chemin d'accès au signet, similaire au XPath d'un fichier XML. Pour les types d'extraction Bookmarks uniquement.
ResourceName	Indique le nom de fichier du document.
SectionContents	Contient le contenu de la section sélectionnée. Pour les types d'extraction Selection uniquement.
SectionNo	Indique le numéro de cette section au sein du document. Pour les types d'extraction Selection uniquement.
Subject	Contient le sujet du document fourni dans les métadonnées du document.
Titre	Contient le titre du document fourni dans les métadonnées du document.