Candidate Finder Spark ジョブの使用

  1. AdvanceMatchFactory のインスタンスを、その静的メソッド getInstance() を使用して作成します。
  2. Candidate Finder ジョブの入力と出力の詳細を指定します。以下の手順に従って、ProcessType を指定する CandidateFinderDetail のインスタンスを作成することによって、これを行います。このインスタンスは、SparkProcessType タイプを使用する必要があります。
    1. インスタンス SparkJobConfig で、hbase_zookeeper_quorum および hbase_zookeeper_property_clientPort の値を設定します。
    2. ComplexSearchQuery のインスタンスを作成することによって、ジョブのクエリを生成します。このインスタンスの中で、次の操作を行います。
      1. QueryNameIndexFieldNameIndexFieldType などのプロパティを設定します。NumericRangeContains AllContains None などの検索クエリを使用できます。
      2. 検索クエリ プロパティを設定し、ANDOR などの論理演算子を使用してこれらを接続します。
      注: ComplexSearchQuery の各インスタンスは、1 つのインスタンス、子のインスタンスの階層、または論理演算子を使用して結合されネストされたインスタンスを使用して定義できます。列挙 JoinType、および列挙 Operationを参照してください。
    3. inputPath インスタンスの CandidateFinderDetail フィールドを使用して、入力ファイルの詳細を設定します。
      • テキスト入力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な入力ファイル情報を指定してFilePath のインスタンスを作成します。
      • ORC 入力ファイルの場合、ORC 入力ファイルのパスを引数に指定して OrcFilePath のインスタンスを作成します。
      • PARQUET 入力ファイルの場合、PARQUET 入力ファイルのパスを引数に指定して ParquetFilePath のインスタンスを作成します。
    4. CandidateFinderDetail インスタンスの outputPath フィールドを使用して、出力ファイルの詳細を設定します。
      • テキスト出力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な出力ファイル情報を指定してFilePath のインスタンスを作成します。
      • ORC 出力ファイルの場合、ORC 出力ファイルのパスを引数に指定して OrcFilePath のインスタンスを作成します。
      • PARQUET 出力ファイルの場合、PARQUET 出力ファイルのパスを引数に指定して ParquetFilePath のインスタンスを作成します。
    5. jobName インスタンスの CandidateFinderDetail フィールドを使用して、ジョブの名前を設定します。
    6. CandidateFinderDetail インスタンスの FetchBatchSize フィールドを設定します。デフォルトは 10000 です。
    7. CandidateFinderDetail インスタンスの MaximumResults フィールドを設定します。デフォルトは 10 です。
    8. CandidateFinderDetail インスタンスの StartingRecord フィールドを設定します。デフォルトは 1 です。
  3. Spark ジョブを作成して実行するには、先ほど作成した AdvanceMatchFactory のインスタンスを使用してそのメソッド runSparkJob() を呼び出します。ここで、上の CandidateFinderDetail のインスタンスを引数として渡します。
    runSparkJob() メソッドはジョブを実行し、ジョブのレポート カウンタの Map を返します。
  4. カウンタを表示することにより、ジョブに対する統計レポートを表示します。