出力
ReadfromDocuments ステージには、出力方向のポートが 2 つあります。1 つのポートは、ステージによって読み取られたうえで入力された条件に基づいて返されたデータを取得します。このデータには、プレーン テキストまたはメタデータ (作成者、作成された日付など) を含めることができます。このポートは、入力方向のデータを読み取る任意のステージ (Write to File、Write to XML など) のほか、Validate Address や Write to Search Index のようなプライマリ ステージにも接続できます。また、ドキュメント内にある特定のエンティティ タイプに関する情報を返す場合には、Information Extractor ステージにも接続できます。「ドキュメント」抽出タイプを選択すると、出力にはフラット データが含まれます。「ページ」または「選択」の抽出タイプを選択すると、出力には階層データが含まれます。
もう 1 つのポートは、データフローによって正しく処理されなかったレコードをすべて収集します。このポートをエラー ポートといいます。このポートからシンク ステージに送られるレコードは形式に誤りがあると考えられます。形式に誤りのあるレコードをキャプチャすることは、そのレコードに関する問題を特定するのに役立ちます。シンクをエラー ポートに接続すると、出力ファイルには、形式に誤りのあるレコードからのすべてのフィールドが含まれます。レコードの処理に失敗した理由を示す理由フィールドも含まれます。
フィールド名 |
説明 / 有効な値 |
---|---|
Author |
通常、ドキュメントを作成または更新した人物の名前が含まれます。この情報は、ドキュメントのメタデータの一部です。 |
Bookmark |
PDF 入力ファイルからのすべてのブックマークが含まれます。「ブックマーク」抽出タイプの場合のみ。 |
BookmarkNo |
PDF 入力ファイルからのすべてのブックマークが含まれます。「ブックマーク」抽出タイプの場合のみ。 |
ContentLength |
ドキュメントの長さを示します。この値は、選択される抽出タイプに応じて変化します。
|
Contents |
抽出タイプによって異なります。例えば、「ドキュメント」抽出タイプの場合は、ドキュメント全体がフラット データとして出力されます。ページ、選択、ブックマークの各抽出タイプの場合は、階層データが出力されます。 |
ContentType |
読み取られたドキュメントのタイプ (PDF、.txt など) を示します。 |
Creator |
通常、ドキュメントを作成した人物の名前が含まれます。この情報は、ドキュメントのメタデータの一部です。 |
Date |
ドキュメントが作成または最後に更新された日付を示します。 |
Keywords |
ドキュメントのメタデータに指定されていたすべてのキーワードが含まれます。 |
Language |
ドキュメントの記述言語を示します。 |
NPages |
ドキュメントのページ数を示します。 |
PageContents |
選択されたページの内容が含まれます。「ページ」抽出タイプの場合のみ。 |
PageNo |
ブックマークのページ番号が含まれます。「ページ」抽出タイプの場合のみ。 |
Parent |
XML ファイルの XPath に似た、ブックマークのパスが含まれます。「ブックマーク」抽出タイプの場合のみ。 |
ResourceName |
ドキュメントのファイル名を示します。 |
SectionContents |
選択されたセクションの内容が含まれます。「選択」抽出タイプの場合のみ。 |
SectionNo |
そのセクションのドキュメント内での番号を示します。「選択」抽出タイプの場合のみ。 |
Subject |
ドキュメントのメタデータに指定されていたドキュメントの主題が含まれます。 |
Title |
ドキュメントのメタデータに指定されていたドキュメントのタイトルが含まれます。 |