Write to Hive File

Write to Hive File ステージでは、データフロー入力を指定された出力 Hive ファイルに書き込みます。

サポートされている以下のいずれかの Hive ファイル フォーマットを、出力ファイルとして選択できます。

  • ORC
  • RC
  • Parquet
  • Avro

[ファイル プロパティ] タブ

表 1. 共通ファイル プロパティ
フィールド 説明
サーバ名 [ファイル名] フィールドで選択したファイルが Hadoop システム上にあることを示します。Hadoop システム上のファイルを選択すると、[サーバー名] には、ファイル サーバーの作成時に Management Console で指定されたとおりのファイル サーバーの名前が反映されます。
ファイル名 省略記号ボタン (...) をクリックし、指定済みの Hadoop ファイル サーバーに作成する出力 Hive ファイルを参照します。このステージの出力データは、選択したファイルに書き込まれます。
注: このステージでこのファイルを使用する前に、Management Console で Hadoop ファイル サーバーへの接続を作成しておく必要があります。
ファイル タイプ: サポートされている以下の 4 つの Hive ファイル フォーマットのいずれかを選択します。
  • ORC
  • RC
  • Parquet
  • Avro
表 2. ORC ファイル プロパティ
フィールド 説明
バッファ サイズ ORC ファイルへの書き込み中に割り当てるバッファ サイズを定義します。キロバイト単位で指定します。
注: デフォルトのバッファ サイズは 256 KB です。
ストライプ サイズ ORC ファイルへの書き込み中に作成するストライプのサイズを定義します。メガバイト単位で指定します。
注: デフォルトのストライプ サイズは 64 MB です。
行インデックス幅 2 つの連続した行インデックスの間に書き込む行の数を定義します。
注: デフォルトの行インデックス幅は 10000 行です。
圧縮タイプ ORC ファイルへの書き込み中に使用する圧縮タイプを定義します。使用できる圧縮タイプは、ZLIBSNAPPY です。
注: デフォルトの圧縮タイプは ZLIB です。
パディング ORC ファイルへの書き込み中に、HDFS ブロックの境界をまたぐストライプを最小限にするため、ストライプをパディングするかどうかを指定します。
注: デフォルトで、[パディング] チェックボックスは選択されています。
プレビュー データフローが少なくとも一度実行され、データが選択されたファイルに書き込まれた後で、書き込まれたファイルの最初の 50 件のレコードが取得され、[プレビュー] グリッドに表示されます。
表 3. RC ファイル プロパティ
フィールド 説明
バッファ サイズ RC ファイルへの書き込み中に割り当てるバッファ サイズを定義します。キロバイト単位で指定します。
注: デフォルトのバッファ サイズは 256 KB です。
ブロック サイズ RC ファイルへの書き込み中に作成するブロックのサイズを定義します。メガバイト単位で指定します。
注: デフォルトのブロック サイズは 64 MB です。
圧縮タイプ RC ファイルへの書き込み中に使用する圧縮タイプを定義します。使用できる圧縮タイプは、NONE と DEFLATE です。
注: デフォルトの圧縮タイプは NONE です。
プレビュー データフローが少なくとも一度実行され、データが選択されたファイルに書き込まれた後で、書き込まれたファイルの最初の 50 件のレコードが取得され、[プレビュー] グリッドに表示されます。

[フィールド] タブでは、必須フィールドの順序とデータタイプを定義します。

注: RC ファイル タイプの場合は、[プレビュー] をクリックして [プレビュー] グリッドを表示する前に、出力ファイルのメタデータを定義する必要があります。
表 4. Parquet ファイル プロパティ
フィールド 説明
圧縮タイプ PARQUET ファイルへの書き込み中に使用する圧縮タイプを定義します。使用できる圧縮タイプは、UNCOMPRESSEDGZIP、および SNAPPY です。
注: デフォルトの圧縮タイプは UNCOMPRESSED です。
ブロック サイズ PARQUET ファイルへの書き込み中に作成するブロックのサイズを定義します。メガバイト単位で指定します。
注: デフォルトのブロック サイズは 128 MB です。
ページ サイズ 圧縮用のページ サイズです。読み込み時には、各ページを個別に解凍できます。キロバイト単位で指定します。
注: デフォルトのページ サイズは 1024 KB です。
辞書を有効にする 辞書エンコーディングを有効/無効にします。
重要: 辞書ページ サイズを有効にするには、辞書が有効である必要があります。
注: デフォルト値は true です。
Dictionary Page size(辞書ページ サイズ) 辞書エンコーディングを使用する場合は、1 つの行グループの 1 つの列につき 1 つの辞書ページがあります。辞書ページ サイズは、ページ サイズと同じように機能します。キロバイト単位で指定します。
注: デフォルトの辞書ページ サイズは 1024 KB です。
Writer バージョン Parquet は、PARQUET_1_0PARQUET_2_0 の 2 つの Writer API バージョンをサポートします。
注: デフォルトは PARQUET_1_0 です。
プレビュー データフローが少なくとも一度実行され、データが選択されたファイルに書き込まれた後で、書き込まれたファイルの最初の 50 件のレコードが取得され、[プレビュー] グリッドに表示されます。
表 5. Avro ファイル プロパティ
フィールド 説明
同期間隔 (バイト単位) 各ブロックに書き込まれる、およその非圧縮バイト数を指定します。有効な値は、32 ~ 2^30 です。ただし、同期間隔は 2K ~ 2M の間にすることが推奨されます。
注: デフォルトの同期間隔は 16000 です。
圧縮 Avro ファイルへの書き込み中に使用する圧縮タイプを定義します。使用できる圧縮タイプは、NONESNAPPY、および DEFLATE です。[DEFLATE] 圧縮を選択する場合は、圧縮レベルを選択するための追加のオプションが表示されます (以下を参照)。
注: デフォルトの圧縮タイプは NONE です。
圧縮レベル

このフィールドは、上記の [比較] フィールドで [DEFLATE] オプションを選択した場合に表示されます。

09 の値が選択可能で、0 は圧縮なしを意味します。圧縮レベルは 19 の順に高くなり、それに伴ってデータ圧縮にかかる時間も増加します。

注: デフォルトの圧縮レベルは 1 です。
プレビュー データフローが少なくとも一度実行され、データが選択されたファイルに書き込まれた後、書き込まれたファイルの最初の 50 件のレコードが取得され、このグリッドに表示されます。

[フィールド] タブ

[フィールド] タブでは、このステージのソース ファイルに存在し、出力ファイルへの書き込みに選択するフィールドの名前とタイプを定義します。

詳細については、Hive ファイル書き込みのためのフィールドの定義を参照してください。

[実行時] タブ

[実行時] タブは、設定済みの Hadoop ファイル サーバーに存在する同じ名前のファイルの [上書き] オプションを提供します。[上書き] チェックボックスをチェックした場合、データフローの実行時に同じ Hadoop ファイル サーバーに存在する同じ名前のファイルは新しい出力 Hive ファイルで上書きされます。

デフォルトで、[上書き] チェックボックスはチェックされていません。
注: [上書き] を選択しない場合、データフロー実行中に書き込むファイルの名前が同じ Hadoop ファイル サーバー上の既存のファイルと重複すると例外が生成されます。