Read from Documents

Read from Documents est un stage source qui lit les données d'entrée non structurées de différents formats de fichier et en extrait le contenu. Il peut s'agir de documents juridiques, de retours/commentaires de clients, de revues de produits, d'articles d'actualités, de blogs, de réseaux sociaux, etc. Read from Documents extrait également les champs de métadonnées comme l'auteur et la date de création. Une fois les données extraites, elles peuvent être utilisées pour différents types de traitement, comme, entre autres, l'extraction d'entités et la manipulation de chaînes. Il est également possible d'utiliser les données pour générer des index de recherche à des fins de recherche de texte non structuré.

Remarque : Chaque document est considéré comme un enregistrement de ce stage.