Hive 関数のコンポーネント
Spectrum™ Data & Address Quality for Big Data SDK Hive UDF の実行に必要な主要コンポーネントは、以下のとおりです。
- JAR ファイル
- 必要なデータ品質 Hive UDF が属するモジュールの Spectrum™ Data & Address Quality for Big Data SDK Hive JAR ファイル。いずれかの UDF を使用する前に、これが登録されている必要があります。
- ジョブ UDF / UDAF
- 各データ品質ジョブは、ユーザ定義関数 (UDF) またはユーザ定義集約関数 (UDAF) として提供されます。
- エイリアス
- Hive UDF に割り当てられたエイリアス。この手順は省略可能です。
- 設定
- 実行するジョブに基づく、JSON 形式で指定されたルールとその他の環境設定詳細情報。
- リファレンス データ
- リファレンス データは、Hadoop Distributed File System (HDFS) またはクラスタ マシンに保存できます。HDFS の場合、リファレンス データの保存には、以下の 2 つの形式を使用できます。
- ファイル
- アーカイブ
- ヘッダー
- 入力テーブルのヘッダー フィールド (カンマ区切り形式)。
- 入力テーブル
- 実行する Hive UDF ごとに入力レコードを提供するテーブル。
- 候補テーブル
- Interflow Match UDAF の場合、実行する Hive UDF に候補レコードを提供するテーブル。
- サスペクト テーブル
- Interflow Match UDAF の場合、実行する Hive UDF にサスペクト レコードを提供するテーブル。
- hive.fetch.task.conversion
- 選択クエリを単一の FETCH タスクに変換し、遅延を最小化します。
値を none または minimal に設定します。デフォルトは minimal です。
注: この設定はすべての UDF で必要です。 - hive.map.aggr
- Mapper および Reducer 間でのデータの集約をオンまたはオフにするには、この Hive 環境変数を
false
に設定します。デフォルトでは、true
となっており、データは集約されます。SDK 内のすべての Hive ジョブで、この値を false に設定します。
注: この設定はすべての UDAF で必要です。 - 全般的な設定
- ジョブを実行するために必要なメモリ設定。注: この設定は Universal Addressing モジュールの Hive UDAF でのみ必要です。
- 入力設定
- 入力データの設定。注: この設定は Universal Addressing モジュールの Hive UDAF でのみ必要です。
- エンジン設定
- データベース設定、COBOL 実行時パス、プリロード タイプなど、さまざまな設定を行います。注: この設定は Universal Addressing モジュールの Hive UDAF でのみ必要です。
- LD_LIBRARY_PATH
- この環境変数は、Hive ジョブの実行時に必要なさまざまな COBOL ライブラリへのパスに設定します。注: この設定は Validate Address の Hive UDF でのみ必要です。
- プロセス タイプ
- SDK の特定の Hive ジョブで使用される適切な検証レベルを指定します。現時点では、住所検証のみがサポートされています。
この値は VALIDATE に設定します。
注: この設定は、Validate Address および Validate Address Loqate の Hive UDAF でのみ必要です。 - 出力
- Hive UDF の出力。コンソールに表示されるか、出力ファイルに書き出されます。
- クエリ
- 必要な Hive UDF を実行するクエリ。 各ジョブに対し、適切なクエリ構文を用いてこれらの操作を実行できます。
- ジョブの出力をコンソールに表示する。
- 指定された出力ファイルに出力を書き出す。