サンプル設定ファイル

サンプルの設定 XML ファイルを使用すると、さまざまな住所およびデータ品質アクティビティに対して MapReduce ジョブや spark ジョブを簡単に実行できます。これらのファイルは、Java コードを理解せずにジョブを実行したいユーザ向けです。ファイルには、キー/値ペアの形式でプロパティが含まれており、必要に応じて変更できます。

コマンド プロンプト (Linux システムの場合) や、Putty などの SSH クライアント (Windows および Unix システムの場合) を使用して、必要なジョブを実行できます。

サンプル設定ファイルは Spectrum™ Technology Platform SDK に付属しており、SDK をインストールした後、次の場所でアクセスできます。

  • <Big Data Quality bundle>\samples\configuration\mr: MR ジョブの場合
  • <Big Data Quality bundle>\samples\configuration\spark: Spark ジョブの場合

ファイルの種類

これらの場所にある各フォルダには、ジョブを処理するために必要なプロパティをパラメータと値の形式で持つ以下の種類の設定 XML ファイルがあります。実行しているジョブの要件に応じて値をカスタマイズできます。
  • inputFileConfig.xml: 入力ファイルの種類、保存場所のパス、レコード区切り文字、フィールド区切り文字、テキスト修飾子、ファイル ヘッダーの詳細など、入力ファイルのプロパティを指定します。
  • <job>Config.xml (例えば、addressValidationConfig): ジョブの種類、ジョブの名前、入力オプション、ルール設定、エンジン設定など、ジョブ関連のプロパティを指定します。
  • mapReduceConfig.xml: MapReduce 設定パラメータを指定します。ジョブでの必要性に応じて、mapreduce.map.memory.mbmapreduce.reduce.memory.mbmapreduce.map.speculative などの任意の MapReduce パラメータのカスタマイズにこのファイルを使用します。
  • OutputFileConfig.xml: 出力ファイルの種類、ファイルの場所、ファイル内で使用されるフィールド区切り文字、ヘッダー ファイルの作成が必要かどうか、レポート カウンタをファイルまたはコンソールに出力するかどうかなどを指定します。