はじめに

Apache Hive は、ユーザ定義関数 (UDF) を提供します。UDF を定義して、必要なアクションを実行し、所望の目的を達成することができます。

Spectrum™ Data & Address Quality for Big Data SDK では、以下のデータ品質ジョブを実行するための一連の Hive ユーザ定義関数とユーザ定義集約関数が提供されています。

ユーザ定義関数 (UDF)

ユーザ定義関数は、一度に 1 つのレコードを処理します。
UDF に基づくジョブには以下のものがあります。
  • Advanced Transformer
  • カスタム Groovy スクリプト
  • Global Address Validation
  • Match Key Generator
  • Open Name Parser
  • Open Parser
  • Table Lookup
  • Validate Address
  • Validate Address Global
  • Validate Address Loqate
  • Candidate Finder

ユーザ定義集約関数 (UDAF)

ユーザ定義集約関数は、結合フィールドに基づいてレコードをコレクションに集約してから、一度に 1 つのレコード コレクションを処理します。
UDAF に基づくジョブには以下のものがあります。
  • Best of Breed
  • Duplicate Synchronization
  • フィルタ
  • Interflow Match
  • Intraflow Match
  • Transactional Match

ユーザ定義表関数 (UDTF)

ユーザ定義表関数は、入力として 1 つの行を操作し、出力として複数の行を返します。この関数に基づくジョブには以下のものがあります。
  • Candidate Finder