はじめに

Spectrum™ Data & Address Quality for Big Data SDK は、Hadoop プラットフォーム上での データ品質操作のための MapReduce ジョブ、Spark ジョブ、および Hive ユーザ定義関数の作成、設定、実行に役立ちます。

この SDK を使用すると、Hadoop プラットフォームで直接ジョブを作成して実行できるため、ネットワーク遅延をなくし、クラスタ内で分散されたデータ品質プロセスを実行することにより、パフォーマンスを著しく向上させることが可能になります。
注: Amazon S3 ネイティブ ファイル システム (s3n) を Hadoop MapReduce および Spark ジョブの入出力として使用することもできます。

SDK の使用

この SDK は現在、Java API および Hive ユーザ定義関数 (UDF) を介して使用できます。
  • Java API
    • MapReduce API
    • Spark API - SDK は RDD および データセットの両方をサポートします
  • Hive ユーザ定義関数