Laden in Hive

Apache Hive ist eine auf Hadoop aufbauende Data Warehouse-Infrastruktur für Datenzusammenfassung, Abfragen und Analysen. Für die Abfrage der zugrunde liegenden Datenquelle über Hive wird die zugehörige eigene Abfragesprache, HiveQL, verwendet.

Hive unterstützt die nachfolgenden Hadoop-Dateiformate:

TEXTFILE
SEQUENCE FILE
ORC
RCFILE
PARQUET
AVRO
Anmerkung: Das Dateiformat AVRO wird in Hive ab Version 0.14 unterstützt.

Die Aktivität „In Hive laden“ ermöglicht es Ihnen, Daten über eine JDBC-Verbindung in eine Hive-Tabelle zu laden. Mit dieser Verbindung werden Daten aus einer bestimmten Hadoop-Datei gelesen und in eine vorhandene Tabelle einer ausgewählten Verbindung, oder eine neu erstellte Verbindung in der ausgewählten Verbindung, geladen.

Damit die Daten in eine neue Tabelle geladen werden können, muss das Schema der Tabelle definiert werden.

Anmerkung: Spectrum unterstützt keine hierarchischen Daten, auch wenn Hive dies tut.