Hive 関数のコンポーネント

Spectrum™ Data & Address Quality for Big Data SDK Hive UDF の実行に必要な主要コンポーネントは、以下のとおりです。

JAR ファイル

必要なデータ品質 Hive UDF が属するモジュールの Spectrum™ Data & Address Quality for Big Data SDK Hive JAR ファイル。いずれかの UDF を使用する前に、これが登録されている必要があります。

ジョブ UDF / UDAF

各データ品質ジョブは、ユーザ定義関数 (UDF) またはユーザ定義集約関数 (UDAF) として提供されます。

エイリアス

Hive UDF に割り当てられたエイリアス。この手順は省略可能です。

設定

実行するジョブに基づく、JSON 形式で指定されたルールとその他の環境設定詳細情報。

リファレンスデータ

リファレンスデータは、Hadoop Distributed File System (HDFS) またはクラスタマシンに保存できます。

HDFS の場合、リファレンスデータの保存には、以下の 2 つの形式を使用できます。

ファイル
アーカイブ

ローカルに保存する場合、リファレンスデータは、クラスタの各ノードで、同じパスに保存する必要があります。

ヘッダー

入力テーブルのヘッダーフィールド (カンマ区切り形式)。

入力テーブル

実行する Hive UDF ごとに入力レコードを提供するテーブル。

候補テーブル

Interflow Match UDAF の場合、実行する Hive UDF に候補レコードを提供するテーブル。

サスペクトテーブル

Interflow Match UDAF の場合、実行する Hive UDF にサスペクトレコードを提供するテーブル。

hive.fetch.task.conversion

選択クエリを単一の FETCH タスクに変換し、遅延を最小化します。

値を none または minimal に設定します。デフォルトは minimal です。

注: この設定はすべての UDF で必要です。

hive.map.aggr

Mapper および Reducer 間でのデータの集約をオンまたはオフにするには、この Hive 環境変数を false に設定します。デフォルトでは、true となっており、データは集約されます。

SDK 内のすべての Hive ジョブで、この値を false に設定します。

注: この設定はすべての UDAF で必要です。

全般的な設定

ジョブを実行するために必要なメモリ設定。

注: この設定は Universal Addressing モジュールの Hive UDAF でのみ必要です。

入力設定

入力データの設定。

注: この設定は Universal Addressing モジュールの Hive UDAF でのみ必要です。

エンジン設定

データベース設定、COBOL 実行時パス、プリロードタイプなど、さまざまな設定を行います。

注: この設定は Universal Addressing モジュールの Hive UDAF でのみ必要です。

LD_LIBRARY_PATH

この環境変数は、Hive ジョブの実行時に必要なさまざまな COBOL ライブラリへのパスに設定します。

注: この設定は Validate Address の Hive UDF でのみ必要です。

プロセスタイプ

SDK の特定の Hive ジョブで使用される適切な検証レベルを指定します。現時点では、住所検証のみがサポートされています。

この値は VALIDATE に設定します。

注: この設定は、Validate Address および Validate Address Loqate の Hive UDAF でのみ必要です。

出力

Hive UDF の出力。コンソールに表示されるか、出力ファイルに書き出されます。

クエリ

必要な Hive UDF を実行するクエリ。

各ジョブに対し、適切なクエリ構文を用いてこれらの操作を実行できます。

ジョブの出力をコンソールに表示する。
指定された出力ファイルに出力を書き出す。