はじめに

Spectrum™ Data & Address Quality for Big Data SDK は、Hadoop プラットフォーム上でのデータ品質操作のための MapReduce ジョブ、Spark ジョブ、および Hive ユーザ定義関数の作成、設定、実行に役立ちます。

この SDK を使用すると、Hadoop プラットフォームで直接ジョブを作成して実行できるため、ネットワーク遅延をなくし、クラスタ内で分散されたデータ品質プロセスを実行することにより、パフォーマンスを著しく向上させることが可能になります。

注: Amazon S3 ネイティブファイルシステム (s3n) を Hadoop MapReduce および Spark ジョブの入出力として使用することもできます。

SDK の使用

この SDK は現在、Java API および Hive ユーザ定義関数 (UDF) を介して使用できます。