Write to Hive File

Der Schritt Write to Hive File schreibt die Datenflusseingabe in die angegebene Hive-Ausgabedatei.

Sie können eines der unterstützten Hive-Dateiformate für die Ausgabedatei auswählen: ORC, RC, Parquet und Avro.

Verwandte Aufgabe:

Verbinden mit Hadoop: Um den Schritt Write to Hive File verwenden zu können, müssen Sie eine Verbindung zum Hadoop-Dateiserver herstellen. Sobald Sie dies tun, wird der Name, unter dem Sie die Verbindung speichern, als Servername angezeigt.

Registerkarte „Dateieigenschaften“

Tabelle 1. Allgemeine Dateieigenschaften
Felder	Beschreibung
Servername	Gibt an, dass die im Feld Dateiname ausgewählte Datei sich auf dem Hadoop-System befindet. Nachdem Sie eine Datei auf einem Hadoop-System ausgewählt haben, entspricht der Servername dem Namen des entsprechenden Dateiservers, wie in der Management Console angegeben.
Dateiname	Klicken Sie auf die Ellipsenschaltfläche (...), um die auf dem definierten Hadoop-Dateiserver zu erstellende Hive-Ausgabedatei zu lokalisieren. Die Ausgabedaten dieses Schrittes werden in die ausgewählte Datei geschrieben. Anmerkung: Sie müssen eine Verbindung zum Hadoop-Dateiserver in der Management Console erstellen, bevor Sie ihn im Schritt verwenden.
Dateityp	Wählen Sie eines der vier unterstützten Hive-Dateiformate aus: ORC RC Parquet Avro

Tabelle 2. ORC-Dateieigenschaften
Felder	Beschreibung
Puffergröße	Definiert die Puffergröße, die beim Schreiben in eine ORC-Datei zugeordnet werden soll. Dieser Wert wird in Kilobyte angegeben. Anmerkung: Die Standardpuffergröße ist `256` KB.
Stripe-Größe	Definiert die Größe der beim Schreiben in eine ORC-Datei zu erstellenden Stripes. Dieser Wert wird in Megabyte angegeben. Anmerkung: Die Standard-Stripe-Größe ist `64` MB.
Zeilenindex-Schrittgröße	Definiert die Anzahl der zwischen zwei fortlaufende Zeilenindizes zu schreibenden Zeilen. Anmerkung: Der Standardwert für die Zeilenindex-Schrittgröße ist `10.000` Zeilen.
Komprimierungstyp	Definiert den beim Schreiben in eine ORC-Datei zu verwendenden Komprimierungstyp. Die verfügbaren Komprimierungstypen sind ZLIB and SNAPPY. Anmerkung: Der Standardkomprimierungstyp ist `ZLIB`.
Textabstand	Gibt an, ob beim Schreiben in eine ORC-Datei die Stripes aufgefüllt werden, um Stripes zu minimieren, die HDFS-Blockgrenzen überschreiten. Anmerkung: Standardmäßig ist das Kästchen Padding aktiviert.
Vorschau	Die ersten 50 Datensätze der geschriebenen Datei werden abgerufen und im Grid Vorschau angezeigt, nachdem der Datenfluss mindestens einmal ausgeführt wurde und die Daten in die ausgewählte Datei geschrieben wurden.

Tabelle 3. RC-Dateieigenschaften
Felder	Beschreibung
Puffergröße	Definiert die Puffergröße, die beim Schreiben in eine RC-Datei zugeordnet werden soll. Dieser Wert wird in Kilobyte angegeben. Anmerkung: Die Standardpuffergröße ist `256` KB.
Blockgröße	Definiert die Größe der beim Schreiben in eine RC-Datei zu erstellenden Blöcke. Dieser Wert wird in Megabyte angegeben. Anmerkung: Die Standardblockgröße ist `64` MB.
Komprimierungstyp	Definiert den beim Schreiben in eine RC-Datei zu verwendenden Komprimierungstyp. Die verfügbaren Komprimierungstypen sind NONE und DEFLATE. Anmerkung: Der Standardkomprimierungstyp ist `NONE`.
Vorschau	Die ersten 50 Datensätze der geschriebenen Datei werden abgerufen und im Grid Vorschau angezeigt, nachdem der Datenfluss mindestens einmal ausgeführt wurde und die Daten in die ausgewählte Datei geschrieben wurden. Die Registerkarte Felder dient dazu, die Reihenfolge und den Datentyp der erforderlichen Felder zu definieren. Anmerkung: Beim Dateityp RC müssen Sie die Metadaten der Ausgabedatei definieren, bevor Sie auf Vorschau klicken, um das Grid Vorschau zu laden.

Tabelle 4. Parquet-Dateieigenschaften
Felder	Beschreibung
Komprimierungstyp	Definiert den beim Schreiben in eine PARQUET-Datei zu verwendenden Komprimierungstyp. Die verfügbaren Komprimierungstypen sind `UNCOMPRESSED`, `GZIP` und `SNAPPY`. Anmerkung: Der Standardkomprimierungstyp ist `UNCOMPRESSED`.
Blockgröße	Definiert die Größe der beim Schreiben in eine PARQUET-Datei zu erstellenden Blöcke. Dieser Wert wird in Megabyte angegeben. Anmerkung: Die Standardblockgröße ist `128` MB.
Seitengröße	Die Seitengröße ist für die Komprimierung relevant. Beim Lesen kann jede Seite unabhängig dekomprimiert werden. Dieser Wert wird in Kilobyte angegeben. Anmerkung: Die Standardseitengröße ist `1.024` KB.
Wörterbuch aktivieren	Zum Aktivieren/Deaktivieren der Wörterbuchcodierung. Achtung: Das Wörterbuch muss aktiviert sein, damit sich die Wörterbuchseitengröße aktivieren lässt. Anmerkung: Der Standardwert ist `true`.
Wörterbuchseitengröße	Es gibt eine Wörterbuchseite pro Spalte pro Zeilengruppe, wenn die Wörterbuchcodierung verwendet wird. Die Wörterbuchseitengröße funktioniert wie die Seitengröße. Dieser Wert wird in Kilobyte angegeben. Anmerkung: Die Standard-Wörterbuchseitengröße ist `1.024` KB.
Writer-Version	Parquet unterstützt zwei Writer-API-Versionen: `PARQUET_1_0` and `PARQUET_2_0`. Anmerkung: Der Standardwert ist `PARQUET_1_0`.
Vorschau	Die ersten 50 Datensätze der geschriebenen Datei werden abgerufen und im Grid Vorschau angezeigt, nachdem der Datenfluss mindestens einmal ausgeführt wurde und die Daten in die ausgewählte Datei geschrieben wurden.

Tabelle 5. Avro-Dateieigenschaften
Felder	Beschreibung
Synchronisierungsintervall (in Bytes)	Gibt die ungefähre Anzahl von unkomprimierten in jedem Block zu schreibenden Byte an. Die gültigen Werte reichen von 32 bis 2^30. Es empfiehlt sich jedoch, ein Synchronisierungsintervall im Bereich von 2 TSD bis 2 Mio. zu verwenden. Anmerkung: Das Standardsynchronisierungsintervall ist `16.000`.
Komprimierung	Definiert den beim Schreiben in eine Avro-Datei zu verwendenden Komprimierungstyp. Die verfügbaren Komprimierungstypen sind NONE, SNAPPY and DEFLATE. Wenn Sie die Komprimierung DEFLATE wählen, erhalten Sie eine zusätzliche Option, um die Komprimierungsstufe (unten beschrieben) auszuwählen. Anmerkung: Der Standardkomprimierungstyp ist `NONE`.
Komprimierungsstufe	Dieses Feld wird angezeigt, wenn Sie die Option `DEFLATE` im obigen Feld Komprimierung auswählen. Es kann Werte von `0` bis `9` aufweisen, wobei `0` für keine Komprimierung steht. Die Komprimierungsstufe nimmt von `1` bis `9` zu, wobei gleichzeitig auch die Zeit zunimmt, die zum Komprimieren der Daten erforderlich ist. Anmerkung: Die Standardkomprimierungsstufe ist `1`.
Vorschau	Die ersten 50 Datensätze der geschriebenen Datei werden abgerufen und in diesem Grid angezeigt, nachdem der Datenfluss mindestens einmal ausgeführt wurde und die Daten in die ausgewählte Datei geschrieben wurden.

Registerkarte „Felder“

Die Registerkarte Felder definiert die Namen und Typen der Felder, die in der Quellendatei dieses Schrittes vorhanden sind und zum Schreiben in die Ausgabedatei ausgewählt werden sollen.

Weitere Informationen finden Sie unter Definieren von Feldern zum Schreiben in eine Hive-Datei.

Registerkarte „Laufzeit“

Die Registerkarte Laufzeit bietet die Möglichkeit, eine vorhandene Datei mit demselben Namen auf dem konfigurierten Hadoop-Dateiserver zu überschreiben. Wenn Sie das Kästchen Überschreiben aktivieren, überschreibt beim Ausführen des Datenflusses die neue Hive-Ausgabedatei eine beliebige vorhandene Datei desselben Namens auf demselben Hadoop-Dateiserver.

Standardmäßig ist das Kästchen Überschreiben aktiviert.

Anmerkung: Wenn Sie Überschreiben nicht aktivieren, wird beim Ausführen des Datenflusses eine Ausnahmebedingung ausgelöst, wenn die zu schreibende Datei denselben Namen wie eine vorhandene Datei auf demselben Hadoop-Dateiserver hat.