Sortie

Le stage Read from Documents comporte deux ports sortants. Un port capture les données lues par le stage et renvoyées en fonction des critères saisis. Il peut s'agir de texte en clair ou de métadonnées (comme l'auteur, la langue, la date de création, etc.). Ce port peut être connecté à tout stage capable de lire les données entrantes, comme Write to File ou Write to XML, ainsi qu'à des stages primaires comme Validate Address ou Write to Search Index. Il peut également être connecté au stage Information Extractor si vous souhaitez renvoyer des informations sur certains types d'entité qui se trouvent dans le document. Lorsque vous sélectionnez le type d'extraction Document, la sortie contient des données plates ; lorsque vous sélectionnez le type d'extraction Page ou Selection, la sortie contient des données hiérarchiques.

L'autre port collecte tout enregistrement que le flux de données n'a pas correctement traité. Il s'agit du port d'erreur et les enregistrements arrivant dans le collecteur de données, via ce port, sont considérés comme non conformes. Capturer des enregistrements non conformes peut vous aider à identifier le problème avec ces enregistrements. Lorsque vous associez un collecteur de données au port d'erreur, le fichier de sortie qui en résulte contient tous les champs des enregistrements non conformes. Il contiendra également un champ Raison qui indique la raison pour laquelle l'enregistrement a échoué.

Tableau 1. Sortie d'Unstructured Reader

Nom du champ

Description/Valeurs valides

Author

Contient généralement le nom de la personne qui a créé ou mis à jour le document. Ces informations font partie des métadonnées du document.

Bookmark

Contient tous les signets du fichier d'entrée au format PDF. Pour les types d'extraction Bookmarks uniquement.

BookmarkNo

Contient tous les signets du fichier d'entrée au format PDF. Pour les types d'extraction Bookmarks uniquement.

ContentLength

Indique la longueur du document. Cette valeur varie suivant le type d'extraction sélectionné :

Document
Nombre de pages du document.
Page
« 1 », pour représenter une seule page de contenu.

Table des matières

Varie en fonction du type d'extraction. Par exemple, les types d'extraction Document sortent le document tout entier sous forme de données plates. Les types d'extraction Page, Selection et Bookmarks sortent des données hiérarchiques.

ContentType

Indique le type de document lu, comme PDF, .txt, etc.

Creator

Contient généralement le nom de la personne qui a créé le document. Ces informations font partie des métadonnées du document.

Date

Indique la date de création ou de la dernière mise à jour du document.

Keywords

Contient tous le mots clés fournis dans les métadonnées du document.

Langue

Indique la langue dans laquelle le document a été rédigé.

NPages

Indique le nombre de pages du document.

PageContents

Contient le contenu de la ou des pages sélectionnées. Pour les types d'extraction Page uniquement.

PageNo

Contient le numéro de page du signet. Pour les types d'extraction Page uniquement.

Parent

Contient le chemin d'accès au signet, similaire au XPath d'un fichier XML. Pour les types d'extraction Bookmarks uniquement.

ResourceName

Indique le nom de fichier du document.

SectionContents

Contient le contenu de la section sélectionnée. Pour les types d'extraction Selection uniquement.

SectionNo

Indique le numéro de cette section au sein du document. Pour les types d'extraction Selection uniquement.

Subject

Contient le sujet du document fourni dans les métadonnées du document.

Titre

Contient le titre du document fourni dans les métadonnées du document.