Transactional Match MapReduce ジョブの使用

AdvanceMatchFactory のインスタンスを、その静的メソッド getInstance() を使用して作成します。
Transactional Match ジョブの入力と出力の詳細を指定します。以下の手順に従って、TransactionalMatchDetail を指定する ProcessType のインスタンスを作成することによって、これを行います。このインスタンスは、MRProcessType タイプを使用する必要があります。
1. GroupbyOption のインスタンスを作成することによって、レコードのグループ化に使用する列を指定します。
  GroupbyMROption のインスタンスを使用して、必要な Group-By 列とリデューサー数を指定します。
2. MatchRule のインスタンスを作成することによって、ジョブのマッチングルールを生成します。
3. TransactionalMatchDetail のインスタンスを作成します。JobConfig タイプのインスタンスと、上で作成した GroupbyOption インスタンスおよび MatchRule インスタンスを、コンストラクタの引数として渡します。
  JobConfig パラメータは、MRJobConfig タイプのインスタンスである必要があります。
4. inputPath インスタンスの TransactionalMatchDetail フィールドを使用して、入力ファイルの詳細を設定します。
  - テキスト入力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な入力ファイル情報を指定してFilePath のインスタンスを作成します。
  - ORC 入力ファイルの場合、ORC 入力ファイルのパスを引数に指定して OrcFilePath のインスタンスを作成します。
  - PARQUET 入力ファイルの場合、PARQUET 入力ファイルのパスを引数に指定して ParquetFilePath のインスタンスを作成します。
5. TransactionalMatchDetail インスタンスの outputPath フィールドを使用して、出力ファイルの詳細を設定します。
  - テキスト出力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な出力ファイル情報を指定してFilePath のインスタンスを作成します。
  - ORC 出力ファイルの場合、ORC 出力ファイルのパスを引数に指定して OrcFilePath のインスタンスを作成します。
  - PARQUET 出力ファイルの場合、PARQUET 出力ファイルのパスを引数に指定して ParquetFilePath のインスタンスを作成します。
6. jobName インスタンスの TransactionalMatchDetail フィールドを使用して、ジョブの名前を設定します。
7. ユニークな候補レコードを出力に返す場合は、returnUniqueCandidates インスタンスの TransactionalMatchDetail フラグに true を設定します。デフォルトは true です。
8. TransactionalMatchDetail インスタンスの compressOutput フラグを true に設定して、ジョブの出力を圧縮します。
9. 入力データにマッチキーがない場合は、マッチキー設定を指定して、Transactional Match ジョブを実行する前にまず、Match Key Generator ジョブを実行してマッチキーを生成する必要があります。
  入力データのマッチキーを生成するには、MatchKeySettings のインスタンスを作成および設定することによってマッチキー設定を指定し、Transactional マッチングを実行する前にマッチキーを生成します。matchKeySettings インスタンスの TransactionalMatchDetail フィールドを使用して、このインスタンスを設定します。
  注: マッチキー設定方法については、コードサンプルを参照してください。
MapReduce ジョブを作成するには、先ほど作成した AdvanceMatchFactory のインスタンスを使用してそのメソッド createJob() を呼び出します。ここで、上の TransactionalMatchDetail のインスタンスを引数として渡します。
createJob() メソッドはジョブを作成し、List インスタンスの ControlledJob を返します。
JobControl のインスタンスを使用して、作成したジョブを実行します。
MapReduce ジョブの正常実行後にレポートカウンタを表示するには、先ほど作成した AdvanceMatchFactory のインスタンスを使用して、そのメソッド getCounters() を呼び出します。作成したジョブを引数として渡します。