はじめに
Apache Hive は、ユーザ定義関数 (UDF) を提供します。UDF を定義して、必要なアクションを実行し、所望の目的を達成することができます。
Spectrum™ Data & Address Quality for Big Data SDK では、以下のデータ品質ジョブを実行するための一連の Hive ユーザ定義関数とユーザ定義集約関数が提供されています。
ユーザ定義関数 (UDF)
ユーザ定義関数は、一度に 1 つのレコードを処理します。UDF に基づくジョブには以下のものがあります。
- Advanced Transformer
- カスタム Groovy スクリプト
- Global Address Validation
- Match Key Generator
- Open Name Parser
- Open Parser
- Table Lookup
- Validate Address
- Validate Address Global
- Validate Address Loqate
- Candidate Finder
ユーザ定義集約関数 (UDAF)
ユーザ定義集約関数は、結合フィールドに基づいてレコードをコレクションに集約してから、一度に 1 つのレコード コレクションを処理します。UDAF に基づくジョブには以下のものがあります。
- Best of Breed
- Duplicate Synchronization
- フィルタ
- Interflow Match
- Intraflow Match
- Transactional Match
ユーザ定義表関数 (UDTF)
ユーザ定義表関数は、入力として 1 つの行を操作し、出力として複数の行を返します。この関数に基づくジョブには以下のものがあります。
- Candidate Finder