ReadfromDocuments

ReadfromDocuments は、さまざまなファイル形式から構造化されていない入力データを読み取り、内容を抽出するソース ステージです。使用できるソースとして、法的文書、顧客からのフィードバック、製品レビュー、ニュース記事、ブログ、ソーシャル ネットワークなどがあります。Read from Documents は、作成者や作成日などのメタデータ フィールドの抽出も行います。抽出されたデータは、さまざまなタイプの処理 (特に、エンティティ抽出や文字列操作) に使用できます。また、構造化されていないテキストを検索するための検索インデックスの作成にも使用できます。
注: それぞれのドキュメントは、このステージ用の 1 つのレコードと見なされます。