Write to Hive File
Sie können eines der unterstützten Hive-Dateiformate für die Ausgabedatei auswählen: ORC, RC, Parquet und Avro.
Verbinden mit Hadoop: Um den Schritt Write to Hive File verwenden zu können, müssen Sie eine Verbindung zum Hadoop-Dateiserver herstellen. Sobald Sie dies tun, wird der Name, unter dem Sie die Verbindung speichern, als Servername angezeigt.
Registerkarte „Dateieigenschaften“
Felder | Beschreibung |
---|---|
Servername | Gibt an, dass die im Feld Dateiname ausgewählte Datei sich auf dem Hadoop-System befindet. Nachdem Sie eine Datei auf einem Hadoop-System ausgewählt haben, entspricht der Servername dem Namen des entsprechenden Dateiservers, wie in der Management Console angegeben. |
Dateiname | Klicken Sie auf die Ellipsenschaltfläche (...), um die auf dem definierten Hadoop-Dateiserver zu erstellende Hive-Ausgabedatei zu lokalisieren. Die Ausgabedaten dieses Schrittes werden in die ausgewählte Datei geschrieben. Anmerkung: Sie müssen eine Verbindung zum Hadoop-Dateiserver in der Management Console erstellen, bevor Sie ihn im Schritt verwenden. |
Dateityp | Wählen Sie eines der vier unterstützten Hive-Dateiformate aus:
|
Felder | Beschreibung |
---|---|
Puffergröße | Definiert die Puffergröße, die beim Schreiben in eine ORC-Datei zugeordnet werden soll. Dieser Wert wird in Kilobyte angegeben. Anmerkung: Die Standardpuffergröße ist 256 KB. |
Stripe-Größe | Definiert die Größe der beim Schreiben in eine ORC-Datei zu erstellenden Stripes. Dieser Wert wird in Megabyte angegeben. Anmerkung: Die Standard-Stripe-Größe ist 64 MB. |
Zeilenindex-Schrittgröße | Definiert die Anzahl der zwischen zwei fortlaufende Zeilenindizes zu schreibenden Zeilen. Anmerkung: Der Standardwert für die Zeilenindex-Schrittgröße ist 10.000 Zeilen. |
Komprimierungstyp | Definiert den beim Schreiben in eine ORC-Datei zu verwendenden Komprimierungstyp. Die verfügbaren Komprimierungstypen sind ZLIB and SNAPPY. Anmerkung: Der Standardkomprimierungstyp ist ZLIB. |
Textabstand | Gibt an, ob beim Schreiben in eine ORC-Datei die Stripes aufgefüllt werden, um Stripes zu minimieren, die HDFS-Blockgrenzen überschreiten. Anmerkung: Standardmäßig ist das Kästchen Padding aktiviert. |
Vorschau | Die ersten 50 Datensätze der geschriebenen Datei werden abgerufen und im Grid Vorschau angezeigt, nachdem der Datenfluss mindestens einmal ausgeführt wurde und die Daten in die ausgewählte Datei geschrieben wurden. |
Felder | Beschreibung |
---|---|
Puffergröße | Definiert die Puffergröße, die beim Schreiben in eine RC-Datei zugeordnet werden soll. Dieser Wert wird in Kilobyte angegeben. Anmerkung: Die Standardpuffergröße ist 256 KB. |
Blockgröße | Definiert die Größe der beim Schreiben in eine RC-Datei zu erstellenden Blöcke. Dieser Wert wird in Megabyte angegeben. Anmerkung: Die Standardblockgröße ist 64 MB. |
Komprimierungstyp | Definiert den beim Schreiben in eine RC-Datei zu verwendenden Komprimierungstyp. Die verfügbaren Komprimierungstypen sind NONE und DEFLATE. Anmerkung: Der Standardkomprimierungstyp ist NONE. |
Vorschau | Die ersten 50 Datensätze der geschriebenen Datei werden abgerufen und im Grid Vorschau angezeigt, nachdem der Datenfluss mindestens einmal ausgeführt wurde und die Daten in die ausgewählte Datei geschrieben wurden. Die Registerkarte Felder dient dazu, die Reihenfolge und den Datentyp der erforderlichen Felder zu definieren. Anmerkung: Beim Dateityp RC müssen Sie die Metadaten der Ausgabedatei definieren, bevor Sie auf Vorschau klicken, um das Grid Vorschau zu laden. |
Felder | Beschreibung |
---|---|
Komprimierungstyp | Definiert den beim Schreiben in eine PARQUET-Datei zu verwendenden Komprimierungstyp. Die verfügbaren Komprimierungstypen sind UNCOMPRESSED, GZIP und SNAPPY. Anmerkung: Der Standardkomprimierungstyp ist UNCOMPRESSED. |
Blockgröße | Definiert die Größe der beim Schreiben in eine PARQUET-Datei zu erstellenden Blöcke. Dieser Wert wird in Megabyte angegeben. Anmerkung: Die Standardblockgröße ist 128 MB. |
Seitengröße | Die Seitengröße ist für die Komprimierung relevant. Beim Lesen kann jede Seite unabhängig dekomprimiert werden. Dieser Wert wird in Kilobyte angegeben. Anmerkung: Die Standardseitengröße ist 1.024 KB. |
Wörterbuch aktivieren | Zum Aktivieren/Deaktivieren der Wörterbuchcodierung. Achtung: Das Wörterbuch muss aktiviert sein, damit sich die Wörterbuchseitengröße aktivieren lässt.
Anmerkung: Der Standardwert ist true.
|
Wörterbuchseitengröße | Es gibt eine Wörterbuchseite pro Spalte pro Zeilengruppe, wenn die Wörterbuchcodierung verwendet wird. Die Wörterbuchseitengröße funktioniert wie die Seitengröße. Dieser Wert wird in Kilobyte angegeben. Anmerkung: Die Standard-Wörterbuchseitengröße ist 1.024 KB. |
Writer-Version | Parquet unterstützt zwei Writer-API-Versionen: PARQUET_1_0 and PARQUET_2_0. Anmerkung: Der Standardwert ist PARQUET_1_0. |
Vorschau | Die ersten 50 Datensätze der geschriebenen Datei werden abgerufen und im Grid Vorschau angezeigt, nachdem der Datenfluss mindestens einmal ausgeführt wurde und die Daten in die ausgewählte Datei geschrieben wurden. |
Felder | Beschreibung |
---|---|
Synchronisierungsintervall (in Bytes) | Gibt die ungefähre Anzahl von unkomprimierten in jedem Block zu schreibenden Byte an. Die gültigen Werte reichen von 32 bis 2^30. Es empfiehlt sich jedoch, ein Synchronisierungsintervall im Bereich von 2 TSD bis 2 Mio. zu verwenden. Anmerkung: Das Standardsynchronisierungsintervall ist 16.000. |
Komprimierung | Definiert den beim Schreiben in eine Avro-Datei zu verwendenden Komprimierungstyp. Die verfügbaren Komprimierungstypen sind NONE, SNAPPY and DEFLATE. Wenn Sie die Komprimierung DEFLATE wählen, erhalten Sie eine zusätzliche Option, um die Komprimierungsstufe (unten beschrieben) auszuwählen. Anmerkung: Der Standardkomprimierungstyp ist NONE. |
Komprimierungsstufe |
Dieses Feld wird angezeigt, wenn Sie die Option DEFLATE im obigen Feld Komprimierung auswählen. Es kann Werte von 0 bis 9 aufweisen, wobei 0 für keine Komprimierung steht. Die Komprimierungsstufe nimmt von 1 bis 9 zu, wobei gleichzeitig auch die Zeit zunimmt, die zum Komprimieren der Daten erforderlich ist. Anmerkung: Die Standardkomprimierungsstufe ist 1.
|
Vorschau | Die ersten 50 Datensätze der geschriebenen Datei werden abgerufen und in diesem Grid angezeigt, nachdem der Datenfluss mindestens einmal ausgeführt wurde und die Daten in die ausgewählte Datei geschrieben wurden. |
Registerkarte „Felder“
Die Registerkarte Felder definiert die Namen und Typen der Felder, die in der Quellendatei dieses Schrittes vorhanden sind und zum Schreiben in die Ausgabedatei ausgewählt werden sollen.
Weitere Informationen finden Sie unter Definieren von Feldern zum Schreiben in eine Hive-Datei.
Registerkarte „Laufzeit“
Die Registerkarte Laufzeit bietet die Möglichkeit, eine vorhandene Datei mit demselben Namen auf dem konfigurierten Hadoop-Dateiserver zu überschreiben. Wenn Sie das Kästchen Überschreiben aktivieren, überschreibt beim Ausführen des Datenflusses die neue Hive-Ausgabedatei eine beliebige vorhandene Datei desselben Namens auf demselben Hadoop-Dateiserver.