ワークフロー

SDK を使用するには、以下のコンポーネントが必要です。

Spectrum™ Data & Address Quality for Big Data SDK のインストール

Spectrum™ Data & Address Quality for Big Data SDK の JAR ファイルをシステムにインストールし、アプリケーションで使用できるようにする必要があります。

クライアントアプリケーション

SDK を使用して必要なデータ品質操作を呼び出して実行するために作成する必要がある Java アプリケーション。Spectrum™ Data & Address Quality for Big Data SDK の JAR ファイルを Java アプリケーションにインポートする必要があります。

Hadoop プラットフォーム

Spectrum™ Data & Address Quality for Big Data SDK を使用してジョブを実行する際、まず、設定済みの Hadoop プラットフォームからデータが読み込まれ、関連する処理が実行された後、出力データが Hadoop プラットフォームに書き出されます。このため、使用するマシンで Hadoop のアクセスの詳細情報を正しく設定しておく必要があります。詳細については、Windows での SDK のインストールおよびLinux での SDK のインストールを参照してください。

注: Amazon S3 ネイティブファイルシステム (s3n) を Hadoop MapReduce および Spark ジョブの入出力として使用することもできます。

リファレンスデータ

Spectrum™ Data & Address Quality for Big Data SDK で必要なリファレンスデータは、Hadoop クラスタに配置されます。

Java API および Hive UDF、UDAF

Java API、Hive UDF または Hive UDAF を使用する場合は、リファレンスデータをローカルデータノードまたは Hadoop Distributed File System (HDFS) に配置できます。

ローカルデータノード: リファレンスデータはクラスタ内の使用可能な全てのノードに配置されます。
Hadoop Distributed File System (HDFS)リファレンスデータは HDFS ディレクトリに配置され、ジョブの実行中に、データを分散キャッシュとしてダウンロードするか、ローカルディレクトリにダウンロードするかを指定できます。詳細については、「リファレンスデータの配置および使用方法」を参照してください。

注: また、この SDK では、パフォーマンス向上のための分散キャッシュを実行できます。