Validate Address Global Spark ジョブの使用

GlobalAddressingFactory のインスタンスを、その静的メソッド getInstance() を使用して作成します。
ProcessType を指定する GlobalAddressingDetail のインスタンスを作成して、Validate Address Global ジョブの入力と出力の詳細を指定します。このインスタンスは、SparkProcessType タイプを使用する必要があります。これを行うには、次の手順に従います。
1. GlobalAddressingGeneralConfiguration のインスタンスを作成することによって、JVM の初期化を設定します。
  列挙体列挙 CacheSize、列挙 RangesToExpand、および列挙 FlexibleRangeExpansion を使用します。
2. ReferenceDataPath のインスタンスを作成することによって、リファレンスデータパスの詳細を設定します。列挙 ReferenceDataPathLocation を参照してください。
3. 必要なデータベース設定を指定します。これには、前述の ReferenceDataPath インスタンスを引数として渡して、GlobalAddressingEngineConfiguration のインスタンスを作成します。
  1. 列挙体列挙 PreloadingType を使用してこのインスタンスのプリロードタイプを設定します。
  2. 列挙 DatabaseType 使用してデータベースタイプを設定します。
  3. 列挙 CountryCodes を使用してサポートされる国を設定します。
  4. すべての国をサポートする場合は、isAllCountries 属性を true に設定します。そうでない場合は、列挙 CountryCodes の値をコンマで区切ったリストで supportedCountries 文字列値に指定します。
4. GlobalAddressingInputConfiguration のインスタンスを作成することによって、入力を設定します。
  このインスタンスの各種フィールドの値を設定するには、列挙体列挙 CountryCodes、列挙 StateProvinceType、列挙 CountryType、列挙 PreferredScript、列挙 PreferredLanguage、列挙 Casing、列挙 OptimizationLevel、列挙 Mode、および列挙 MatchingScope の該当するものを使用します。
5. データにアンロックキーを List の String 値として設定します。
6. GlobalAddressingDetail のインスタンスを作成します。Config タイプのインスタンスと、先ほど作成したアンロックコード値の List、GlobalAddressingEngineConfiguration インスタンス、および GlobalAddressingInputConfiguration インスタンスを引数としてコンストラクタに渡します。
  
  Config パラメータは、SparkJobConfig タイプのインスタンスである必要があります。
  
  このパラメータの GROUPBY_REGION の値は、デフォルトで true に設定されます。このジョブは、追加したリファレンスデータに従って、このリージョンの住所を処理します。例えば、ドイツのリファレンスデータが HDFS に配置されている場合は、ドイツの入力住所が処理されます。
  1. JVM 初期化構成を設定します。GlobalAddressingDetail インスタンスの generalConfiguration フィールドを上で作成した GlobalAddressingGeneralConfiguration インスタンスに設定します。
  2. inputPath インスタンスの GlobalAddressingDetail フィールドを使用して、入力ファイルの詳細を設定します。
    注:
    
    テキスト入力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な入力ファイル情報を指定してFilePath のインスタンスを作成します。
    
    ORC 入力ファイルの場合、ORC 入力ファイルのパスを引数に指定して OrcFilePath のインスタンスを作成します。
    
    PARQUET 入力ファイルの場合、PARQUET 入力ファイルのパスを引数に指定して ParquetFilePath のインスタンスを作成します。
  3. GlobalAddressingDetail インスタンスの outputPath フィールドを使用して、出力ファイルの詳細を設定します。
    注:
    
    テキスト出力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な出力ファイル情報を指定してFilePath のインスタンスを作成します。
    
    ORC 出力ファイルの場合、ORC 出力ファイルのパスを引数に指定して OrcFilePath のインスタンスを作成します。
    
    PARQUET 出力ファイルの場合、PARQUET 出力ファイルのパスを引数に指定して ParquetFilePath のインスタンスを作成します。
  4. jobName インスタンスの GlobalAddressingDetail フィールドを使用して、ジョブの名前を設定します。
Spark ジョブを作成して実行するには、先ほど作成した GlobalAddressingFactory のインスタンスを使用してそのメソッド runSparkJob() を呼び出します。ここで、上の GlobalAddressingDetail のインスタンスを引数として渡します。
runSparkJob() メソッドはジョブを実行し、ジョブのレポートカウンタの Map を返します。
カウンタを表示することにより、ジョブに対する統計レポートを表示します。