Ausgabe

Der Schritt „Read from Documents“ verfügt über zwei ausgehende Ports. Ein Port erfasst die Daten, die vom Schritt gelesen und auf Basis der eingegebenen Kriterien zurückgegeben wurden. Es kann sich dabei um Klartext oder Metadaten (z. B. Autor, Sprache, Erstellungsdatum) handeln. Dieser Port kann mit jedem Schritt, der eingehende Daten liest (z. B. „Write to File“ oder „Write to XML“), sowie mit Primärschritten (z. B.„Validate Address“ oder „Write to Search Index“) verbunden werden. Er kann auch mit dem „Information Extractor“-Schritt verbunden werden, wenn Sie Informationen über bestimmte Entitätstypen zurückgeben möchten, die sich im Dokument befinden. Wenn Sie den Extraktionstyp „Dokument“ auswählen, enthält die Ausgabe flache Daten; bei Auswahl des Extraktionstyps „Seite“ oder „Auswahl“ enthält die Ausgabe hierarchische Daten.

Der andere Port erfasst alle Datensätze, die der Datenfluss nicht korrekt verarbeitet hat. Dieser Port wird als Fehlerport bezeichnet, und Datensätze, die durch diesen Port in das Zielsystem gelangen, werden als falsch formatiert gewertet. Das Erfassen von falsch formatierten Datensätzen hilft Ihnen, das Problem mit diesen Datensätzen zu identifizieren. Wenn Sie einen Zielschritt an den Fehlerport anhängen, enthält die resultierende Ausgabedatei alle Felder aus den fehlerhaften Datensätzen. Sie enthält auch das Feld „Reason“, das angibt, warum ein Datensatz fehlgeschlagen ist.

Tabelle 1. Unstrukturierte Reader-Ausgabe

Feldname

Beschreibung/gültige Werte

Author

Enthält in der Regel den Namen der Person, die das Dokument erstellt oder aktualisiert hat. Diese Informationen sind Teil der Metadaten des Dokuments.

Bookmark

Enthält alle Lesezeichen aus der PDF-Eingabedatei. Nur für den Extraktionstyp „Lesezeichen“.

BookmarkNo

Enthält alle Lesezeichen aus der PDF-Eingabedatei. Nur für den Extraktionstyp „Lesezeichen“.

ContentLength

Gibt die Länge des Dokuments an. Der Wert variiert je nach dem ausgewählten Extraktionstyp:

Document
Die Anzahl der Seiten im Dokument.
Page
„1“ steht für eine Einzelseite mit Inhalt.

Contents

Variiert je nach Extraktionstyp. Der Extraktionstyp „Dokument“ beispielsweise gibt das gesamte Dokument als flache Daten aus. Die Extraktionstypen „Seite“, „Auswahl“ und „Lesezeichen“ geben hierarchische Daten aus.

ContentType

Gibt den Typ des gelesenen Dokuments an, z. B. PDF, TXT usw.

Creator

Enthält in der Regel den Namen der Person, die das Dokument erstellt hat. Diese Informationen sind Teil der Metadaten des Dokuments.

Date

Gibt das Datum an, an dem das Dokument erstellt oder zuletzt aktualisiert wurde.

Keywords

Enthält beliebige Schlüsselwörter, die in den Metadaten des Dokuments angegeben wurden.

Language

Gibt die Sprache an, in der das Dokument erstellt wurde.

NPages

Gibt die Anzahl der Seiten im Dokument an.

PageContents

Enthält die Inhalte der ausgewählten Seite(n). Nur für den Extraktionstyp „Seite“.

PageNo

Enthält die Seitenzahl für das Lesezeichen. Nur für den Extraktionstyp „Seite“.

Parent

Enthält den Pfad des Lesezeichens, ähnlich dem XPath einer XML-Datei. Nur für den Extraktionstyp „Lesezeichen“.

ResourceName

Gibt den Dateinamen des Dokuments an.

SectionContents

Enthält die Inhalte des ausgewählten Abschnitts. Nur für den Extraktionstyp „Auswahl“.

SectionNo

Gibt die Nummer des Abschnitts innerhalb dieses Dokuments an. Nur für den Extraktionstyp „Auswahl“.

Subject

Enthält das Thema des Dokuments, das in den Metadaten des Dokuments angegeben wurde.

Title

Enthält den Titel des Dokuments, der in den Metadaten des Dokuments angegeben wurde.