Global Address Validation Spark ジョブの使用

  1. AddressValidationFactory のインスタンスを、その静的メソッド getInstance() を使用して作成します。
  2. ProcessType を指定する AddressValidationDetail のインスタンスを作成し、Global Address Validation ジョブの入力と出力の詳細を指定します。このインスタンスは、SparkProcessType タイプを使用する必要があります。これを行うには、次の手順に従います。
    1. productDatabaseInfo のインスタンスを作成し、次の詳細を設定します。
      1. ReferenceDataPath: 列挙 ReferenceDataPathLocation を使用します。
      2. CountryCode: 列挙 CountryCodes を使用します。
      3. ProcessType: Enum AddressValidationProcessType を使用します。
    2. 配列リスト クラス ProductDatabaseInfoList を作成し、add() メソッドを使用して ProductDatabaseInfo を挿入します。
    3. AddressValidationEngineConfiguration のインスタンスを作成し、このインスタンス内で ProductDatabaseInfoList を設定します。
    4. AddressValidationInputOption のインスタンスを作成し、この新しいインスタンスに次の詳細を設定します。
      • 大文字と小文字の区別
      • MatchMode
      • DefaultCountry
      • MaximumResults
      • ReturnInputAddress
      • ReturnParsedAddress
      • ReturnPrecisionCode
      • ReturnMatchScore
      • MustMatchAddressNumber
      • MustMatchStreet
      • MustMatchCity
      • MustMatchLocality
      • MustMatchState
      • MustMatchStateProvince
      • MustMatchPostCode
      • KeepMultiMatch
      • PreferPostalOverCity
      • CityFallback
      • PostalFallback
      • ValidationLevel
    5. AddressValidationDetail のインスタンスを作成します。ジョブの環境設定と、上で作成した addressValidationEngineConfigurationinputOption のインスタンスを引数として渡します。このインスタンスに次の詳細を設定します。
      注: Config パラメータは、MRJobConfig タイプ (MR ジョブ) および SparkJobConfig タイプ (Spark ジョブ) のインスタンスである必要があります。
      1. inputPath フィールドを使用して、入力ファイルの詳細を設定します。
        注:
        • テキスト入力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な入力ファイル情報を指定してFilePath のインスタンスを作成します。
        • ORC 入力ファイルの場合、ORC 入力ファイルのパスを引数に指定して OrcFilePath のインスタンスを作成します。
        • PARQUET 入力ファイルの場合、PARQUET 入力ファイルのパスを引数に指定して ParquetFilePath のインスタンスを作成します。
      2. outputPath フィールドを使用して、出力ファイルの詳細を設定します。
        注:
        • テキスト出力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な出力ファイル情報を指定してFilePath のインスタンスを作成します。
        • ORC 出力ファイルの場合、ORC 出力ファイルのパスを引数に指定して OrcFilePath のインスタンスを作成します。
        • PARQUET 出力ファイルの場合、PARQUET 出力ファイルのパスを引数に指定して ParquetFilePath のインスタンスを作成します。

      3. jobName フィールドを使用して、ジョブの名前を設定します。
      4. compressOutput フラグを false に設定して、ジョブの出力が圧縮されないようにします。
  3. Spark ジョブを作成するには、先ほど作成した AddressValidationFactory のインスタンスを使用してそのメソッド createJob() を呼び出します。ここで、上の AddressValidationDetail のインスタンスを引数として渡します。
    runSparkJob() メソッドはジョブを実行し、ジョブのレポート カウンタの Map を返します。
  4. カウンタを表示することにより、ジョブに対する統計レポートを表示します。