はじめに
Spectrum™ Data & Address Quality for Big Data SDK は、Hadoop プラットフォーム上での データ品質操作のための MapReduce ジョブ、Spark ジョブ、および Hive ユーザ定義関数の作成、設定、実行に役立ちます。
この SDK を使用すると、Hadoop プラットフォームで直接ジョブを作成して実行できるため、ネットワーク遅延をなくし、クラスタ内で分散されたデータ品質プロセスを実行することにより、パフォーマンスを著しく向上させることが可能になります。
注: Amazon S3 ネイティブ ファイル システム (s3n) を Hadoop MapReduce および Spark ジョブの入出力として使用することもできます。
SDK の使用
この SDK は現在、Java API および Hive ユーザ定義関数 (UDF) を介して使用できます。- Java API
- MapReduce API
- Spark API - SDK は RDD および データセットの両方をサポートします
- Hive ユーザ定義関数