Sortie
Le stage Read from Documents comporte deux ports sortants. Un port capture les données lues par le stage et renvoyées en fonction des critères saisis. Il peut s'agir de texte en clair ou de métadonnées (comme l'auteur, la langue, la date de création, etc.). Ce port peut être connecté à tout stage capable de lire les données entrantes, comme Write to File ou Write to XML, ainsi qu'à des stages primaires comme Validate Address ou Write to Search Index. Il peut également être connecté au stage Information Extractor si vous souhaitez renvoyer des informations sur certains types d'entité qui se trouvent dans le document. Lorsque vous sélectionnez le type d'extraction Document, la sortie contient des données plates ; lorsque vous sélectionnez le type d'extraction Page ou Selection, la sortie contient des données hiérarchiques.
L'autre port collecte tout enregistrement que le flux de données n'a pas correctement traité. Il s'agit du port d'erreur et les enregistrements arrivant dans le collecteur de données, via ce port, sont considérés comme non conformes. Capturer des enregistrements non conformes peut vous aider à identifier le problème avec ces enregistrements. Lorsque vous associez un collecteur de données au port d'erreur, le fichier de sortie qui en résulte contient tous les champs des enregistrements non conformes. Il contiendra également un champ Raison qui indique la raison pour laquelle l'enregistrement a échoué.
Nom du champ |
Description/Valeurs valides |
---|---|
Author |
Contient généralement le nom de la personne qui a créé ou mis à jour le document. Ces informations font partie des métadonnées du document. |
Bookmark |
Contient tous les signets du fichier d'entrée au format PDF. Pour les types d'extraction Bookmarks uniquement. |
BookmarkNo |
Contient tous les signets du fichier d'entrée au format PDF. Pour les types d'extraction Bookmarks uniquement. |
ContentLength |
Indique la longueur du document. Cette valeur varie suivant le type d'extraction sélectionné :
|
Table des matières |
Varie en fonction du type d'extraction. Par exemple, les types d'extraction Document sortent le document tout entier sous forme de données plates. Les types d'extraction Page, Selection et Bookmarks sortent des données hiérarchiques. |
ContentType |
Indique le type de document lu, comme PDF, .txt, etc. |
Creator |
Contient généralement le nom de la personne qui a créé le document. Ces informations font partie des métadonnées du document. |
Date |
Indique la date de création ou de la dernière mise à jour du document. |
Keywords |
Contient tous le mots clés fournis dans les métadonnées du document. |
Langue |
Indique la langue dans laquelle le document a été rédigé. |
NPages |
Indique le nombre de pages du document. |
PageContents |
Contient le contenu de la ou des pages sélectionnées. Pour les types d'extraction Page uniquement. |
PageNo |
Contient le numéro de page du signet. Pour les types d'extraction Page uniquement. |
Parent |
Contient le chemin d'accès au signet, similaire au XPath d'un fichier XML. Pour les types d'extraction Bookmarks uniquement. |
ResourceName |
Indique le nom de fichier du document. |
SectionContents |
Contient le contenu de la section sélectionnée. Pour les types d'extraction Selection uniquement. |
SectionNo |
Indique le numéro de cette section au sein du document. Pour les types d'extraction Selection uniquement. |
Subject |
Contient le sujet du document fourni dans les métadonnées du document. |
Titre |
Contient le titre du document fourni dans les métadonnées du document. |