出力

ReadfromDocuments ステージには、出力方向のポートが 2 つあります。1 つのポートは、ステージによって読み取られたうえで入力された条件に基づいて返されたデータを取得します。このデータには、プレーンテキストまたはメタデータ (作成者、作成された日付など) を含めることができます。このポートは、入力方向のデータを読み取る任意のステージ (Write to File、Write to XML など) のほか、Validate Address や Write to Search Index のようなプライマリステージにも接続できます。また、ドキュメント内にある特定のエンティティタイプに関する情報を返す場合には、Information Extractor ステージにも接続できます。「ドキュメント」抽出タイプを選択すると、出力にはフラットデータが含まれます。「ページ」または「選択」の抽出タイプを選択すると、出力には階層データが含まれます。

もう 1 つのポートは、データフローによって正しく処理されなかったレコードをすべて収集します。このポートをエラーポートといいます。このポートからシンクステージに送られるレコードは形式に誤りがあると考えられます。形式に誤りのあるレコードをキャプチャすることは、そのレコードに関する問題を特定するのに役立ちます。シンクをエラーポートに接続すると、出力ファイルには、形式に誤りのあるレコードからのすべてのフィールドが含まれます。レコードの処理に失敗した理由を示す理由フィールドも含まれます。

表 1. Unstructured Reader の出力
フィールド名	説明 / 有効な値
Author	通常、ドキュメントを作成または更新した人物の名前が含まれます。この情報は、ドキュメントのメタデータの一部です。
Bookmark	PDF 入力ファイルからのすべてのブックマークが含まれます。「ブックマーク」抽出タイプの場合のみ。
BookmarkNo	PDF 入力ファイルからのすべてのブックマークが含まれます。「ブックマーク」抽出タイプの場合のみ。
ContentLength	ドキュメントの長さを示します。この値は、選択される抽出タイプに応じて変化します。 Document ドキュメントのページ数です。 Page 常に "1" であり、単一ページのコンテンツを表します。
Contents	抽出タイプによって異なります。例えば、「ドキュメント」抽出タイプの場合は、ドキュメント全体がフラットデータとして出力されます。ページ、選択、ブックマークの各抽出タイプの場合は、階層データが出力されます。
ContentType	読み取られたドキュメントのタイプ (PDF、.txt など) を示します。
Creator	通常、ドキュメントを作成した人物の名前が含まれます。この情報は、ドキュメントのメタデータの一部です。
Date	ドキュメントが作成または最後に更新された日付を示します。
Keywords	ドキュメントのメタデータに指定されていたすべてのキーワードが含まれます。
Language	ドキュメントの記述言語を示します。
NPages	ドキュメントのページ数を示します。
PageContents	選択されたページの内容が含まれます。「ページ」抽出タイプの場合のみ。
PageNo	ブックマークのページ番号が含まれます。「ページ」抽出タイプの場合のみ。
Parent	XML ファイルの XPath に似た、ブックマークのパスが含まれます。「ブックマーク」抽出タイプの場合のみ。
ResourceName	ドキュメントのファイル名を示します。
SectionContents	選択されたセクションの内容が含まれます。「選択」抽出タイプの場合のみ。
SectionNo	そのセクションのドキュメント内での番号を示します。「選択」抽出タイプの場合のみ。
Subject	ドキュメントのメタデータに指定されていたドキュメントの主題が含まれます。
Title	ドキュメントのメタデータに指定されていたドキュメントのタイトルが含まれます。