Read from Documents

„Read from Documents“ ist ein Quellschritt, der unstrukturierte Eingabedaten aus verschiedenen Dateiformaten liest und die Inhalte extrahiert. Mögliche Quellen sind Rechtsdokumente, Kundenfeedback, Produktbewertungen, Nachrichtenartikel, Blogs, soziale Netzwerke usw. „Read from Documents“ extrahiert auch Metadaten-Felder wie Autor und Erstellungsdatum. Sobald die Daten extrahiert wurden, können sie für verschiedene Verarbeitungstypen verwendet werden, z. B. Entitätsextraktion und Zeichenfolgenmanipulation. Die Daten können auch zum Erstellen von Suchindizes für unstrukturierte Textsuchen verwendet werden.

Anmerkung: Jedes Dokument wir als ein Datensatz für diesen Schritt betrachtet.