Write to Hive File

Write to Hive File ステージでは、データフロー入力を指定された出力 Hive ファイルに書き込みます。

サポートされている以下のいずれかの Hive ファイルフォーマットを、出力ファイルとして選択できます。

ORC
RC
Parquet
Avro

[ファイルプロパティ] タブ

表 1. 共通ファイルプロパティ
フィールド	説明
サーバ名	[ファイル名] フィールドで選択したファイルが Hadoop システム上にあることを示します。Hadoop システム上のファイルを選択すると、[サーバー名] には、ファイルサーバーの作成時に Management Console で指定されたとおりのファイルサーバーの名前が反映されます。
ファイル名	省略記号ボタン (...) をクリックし、指定済みの Hadoop ファイルサーバーに作成する出力 Hive ファイルを参照します。このステージの出力データは、選択したファイルに書き込まれます。注: このステージでこのファイルを使用する前に、Management Console で Hadoop ファイルサーバーへの接続を作成しておく必要があります。
ファイルタイプ:	サポートされている以下の 4 つの Hive ファイルフォーマットのいずれかを選択します。 ORC RC Parquet Avro

表 2. ORC ファイルプロパティ
フィールド	説明
バッファサイズ	ORC ファイルへの書き込み中に割り当てるバッファサイズを定義します。キロバイト単位で指定します。注: デフォルトのバッファサイズは `256` KB です。
ストライプサイズ	ORC ファイルへの書き込み中に作成するストライプのサイズを定義します。メガバイト単位で指定します。注: デフォルトのストライプサイズは `64` MB です。
行インデックス幅	2 つの連続した行インデックスの間に書き込む行の数を定義します。注: デフォルトの行インデックス幅は `10000` 行です。
圧縮タイプ	ORC ファイルへの書き込み中に使用する圧縮タイプを定義します。使用できる圧縮タイプは、ZLIB と SNAPPY です。注: デフォルトの圧縮タイプは `ZLIB` です。
パディング	ORC ファイルへの書き込み中に、HDFS ブロックの境界をまたぐストライプを最小限にするため、ストライプをパディングするかどうかを指定します。注: デフォルトで、[パディング] チェックボックスは選択されています。
プレビュー	データフローが少なくとも一度実行され、データが選択されたファイルに書き込まれた後で、書き込まれたファイルの最初の 50 件のレコードが取得され、[プレビュー] グリッドに表示されます。

表 3. RC ファイルプロパティ
フィールド	説明
バッファサイズ	RC ファイルへの書き込み中に割り当てるバッファサイズを定義します。キロバイト単位で指定します。注: デフォルトのバッファサイズは `256` KB です。
ブロックサイズ	RC ファイルへの書き込み中に作成するブロックのサイズを定義します。メガバイト単位で指定します。注: デフォルトのブロックサイズは `64` MB です。
圧縮タイプ	RC ファイルへの書き込み中に使用する圧縮タイプを定義します。使用できる圧縮タイプは、NONE と DEFLATE です。注: デフォルトの圧縮タイプは `NONE` です。
プレビュー	データフローが少なくとも一度実行され、データが選択されたファイルに書き込まれた後で、書き込まれたファイルの最初の 50 件のレコードが取得され、[プレビュー] グリッドに表示されます。 [フィールド] タブでは、必須フィールドの順序とデータタイプを定義します。注: RC ファイルタイプの場合は、[プレビュー] をクリックして [プレビュー] グリッドを表示する前に、出力ファイルのメタデータを定義する必要があります。

表 4. Parquet ファイルプロパティ
フィールド	説明
圧縮タイプ	PARQUET ファイルへの書き込み中に使用する圧縮タイプを定義します。使用できる圧縮タイプは、`UNCOMPRESSED`、`GZIP`、および `SNAPPY` です。注: デフォルトの圧縮タイプは `UNCOMPRESSED` です。
ブロックサイズ	PARQUET ファイルへの書き込み中に作成するブロックのサイズを定義します。メガバイト単位で指定します。注: デフォルトのブロックサイズは `128` MB です。
ページサイズ	圧縮用のページサイズです。読み込み時には、各ページを個別に解凍できます。キロバイト単位で指定します。注: デフォルトのページサイズは `1024` KB です。
辞書を有効にする	辞書エンコーディングを有効/無効にします。重要: 辞書ページサイズを有効にするには、辞書が有効である必要があります。注: デフォルト値は `true` です。
Dictionary Page size(辞書ページサイズ)	辞書エンコーディングを使用する場合は、1 つの行グループの 1 つの列につき 1 つの辞書ページがあります。辞書ページサイズは、ページサイズと同じように機能します。キロバイト単位で指定します。注: デフォルトの辞書ページサイズは `1024` KB です。
Writer バージョン	Parquet は、`PARQUET_1_0` と `PARQUET_2_0` の 2 つの Writer API バージョンをサポートします。注: デフォルトは `PARQUET_1_0` です。
プレビュー	データフローが少なくとも一度実行され、データが選択されたファイルに書き込まれた後で、書き込まれたファイルの最初の 50 件のレコードが取得され、[プレビュー] グリッドに表示されます。

表 5. Avro ファイルプロパティ
フィールド	説明
同期間隔 (バイト単位)	各ブロックに書き込まれる、およその非圧縮バイト数を指定します。有効な値は、32 ～ 2^30 です。ただし、同期間隔は 2K ～ 2M の間にすることが推奨されます。注: デフォルトの同期間隔は `16000` です。
圧縮	Avro ファイルへの書き込み中に使用する圧縮タイプを定義します。使用できる圧縮タイプは、NONE、SNAPPY、および DEFLATE です。[DEFLATE] 圧縮を選択する場合は、圧縮レベルを選択するための追加のオプションが表示されます (以下を参照)。注: デフォルトの圧縮タイプは `NONE` です。
圧縮レベル	このフィールドは、上記の `[比較]` フィールドで [DEFLATE] オプションを選択した場合に表示されます。 `0` ～ `9` の値が選択可能で、`0` は圧縮なしを意味します。圧縮レベルは `1` ～ `9` の順に高くなり、それに伴ってデータ圧縮にかかる時間も増加します。注: デフォルトの圧縮レベルは `1` です。
プレビュー	データフローが少なくとも一度実行され、データが選択されたファイルに書き込まれた後、書き込まれたファイルの最初の 50 件のレコードが取得され、このグリッドに表示されます。

[フィールド] タブ

[フィールド] タブでは、このステージのソースファイルに存在し、出力ファイルへの書き込みに選択するフィールドの名前とタイプを定義します。

詳細については、Hive ファイル書き込みのためのフィールドの定義を参照してください。

[実行時] タブ

[実行時] タブは、設定済みの Hadoop ファイルサーバーに存在する同じ名前のファイルの [上書き] オプションを提供します。[上書き] チェックボックスをチェックした場合、データフローの実行時に同じ Hadoop ファイルサーバーに存在する同じ名前のファイルは新しい出力 Hive ファイルで上書きされます。

デフォルトで、[上書き] チェックボックスはチェックされていません。

注: [上書き] を選択しない場合、データフロー実行中に書き込むファイルの名前が同じ Hadoop ファイルサーバー上の既存のファイルと重複すると例外が生成されます。

Write to Hive File

[ファイル プロパティ] タブ

[フィールド] タブ

[実行時] タブ

[ファイルプロパティ] タブ