出力

ReadfromDocuments ステージには、出力方向のポートが 2 つあります。1 つのポートは、ステージによって読み取られたうえで入力された条件に基づいて返されたデータを取得します。このデータには、プレーン テキストまたはメタデータ (作成者、作成された日付など) を含めることができます。このポートは、入力方向のデータを読み取る任意のステージ (Write to File、Write to XML など) のほか、Validate Address や Write to Search Index のようなプライマリ ステージにも接続できます。また、ドキュメント内にある特定のエンティティ タイプに関する情報を返す場合には、Information Extractor ステージにも接続できます。「ドキュメント」抽出タイプを選択すると、出力にはフラット データが含まれます。「ページ」または「選択」の抽出タイプを選択すると、出力には階層データが含まれます。

もう 1 つのポートは、データフローによって正しく処理されなかったレコードをすべて収集します。このポートをエラー ポートといいます。このポートからシンク ステージに送られるレコードは形式に誤りがあると考えられます。形式に誤りのあるレコードをキャプチャすることは、そのレコードに関する問題を特定するのに役立ちます。シンクをエラー ポートに接続すると、出力ファイルには、形式に誤りのあるレコードからのすべてのフィールドが含まれます。レコードの処理に失敗した理由を示す理由フィールドも含まれます。

表 1. Unstructured Reader の出力

フィールド名

説明 / 有効な値

Author

通常、ドキュメントを作成または更新した人物の名前が含まれます。この情報は、ドキュメントのメタデータの一部です。

Bookmark

PDF 入力ファイルからのすべてのブックマークが含まれます。「ブックマーク」抽出タイプの場合のみ。

BookmarkNo

PDF 入力ファイルからのすべてのブックマークが含まれます。「ブックマーク」抽出タイプの場合のみ。

ContentLength

ドキュメントの長さを示します。この値は、選択される抽出タイプに応じて変化します。

Document
ドキュメントのページ数です。
Page
常に "1" であり、単一ページのコンテンツを表します。

Contents

抽出タイプによって異なります。例えば、「ドキュメント」抽出タイプの場合は、ドキュメント全体がフラット データとして出力されます。ページ、選択、ブックマークの各抽出タイプの場合は、階層データが出力されます。

ContentType

読み取られたドキュメントのタイプ (PDF、.txt など) を示します。

Creator

通常、ドキュメントを作成した人物の名前が含まれます。この情報は、ドキュメントのメタデータの一部です。

Date

ドキュメントが作成または最後に更新された日付を示します。

Keywords

ドキュメントのメタデータに指定されていたすべてのキーワードが含まれます。

Language

ドキュメントの記述言語を示します。

NPages

ドキュメントのページ数を示します。

PageContents

選択されたページの内容が含まれます。「ページ」抽出タイプの場合のみ。

PageNo

ブックマークのページ番号が含まれます。「ページ」抽出タイプの場合のみ。

Parent

XML ファイルの XPath に似た、ブックマークのパスが含まれます。「ブックマーク」抽出タイプの場合のみ。

ResourceName

ドキュメントのファイル名を示します。

SectionContents

選択されたセクションの内容が含まれます。「選択」抽出タイプの場合のみ。

SectionNo

そのセクションのドキュメント内での番号を示します。「選択」抽出タイプの場合のみ。

Subject

ドキュメントのメタデータに指定されていたドキュメントの主題が含まれます。

Title

ドキュメントのメタデータに指定されていたドキュメントのタイトルが含まれます。