Global Address Validation MapReduce ジョブの使用

  1. AddressValidationFactory のインスタンスを、その静的メソッド getInstance() を使用して作成します。
  2. ProcessType を指定する AddressValidationDetail のインスタンスを作成し、Global Address Validation ジョブの入力と出力の詳細を指定します。このインスタンスは、MRProcessType タイプを使用する必要があります。これを行うには、次の手順に従います。
    1. productDatabaseInfo のインスタンスを作成し、次の詳細を設定します。
      1. ReferenceDataPath: 列挙 ReferenceDataPathLocation を使用します。
      2. CountryCode: 列挙 CountryCodes を使用します。
      3. ProcessType: Enum AddressValidationProcessType を使用します。
    2. 配列リスト クラス ProductDatabaseInfoList を作成し、add() メソッドを使用して ProductDatabaseInfo を挿入します。
    3. AddressValidationEngineConfiguration のインスタンスを作成し、このインスタンス内で ProductDatabaseInfoList を設定します。
    4. AddressValidationInputOption のインスタンスを作成し、この新しいインスタンスに次の詳細を設定します。
      • 大文字と小文字の区別
      • MatchMode
      • DefaultCountry
      • MaximumResults
      • ReturnInputAddress
      • ReturnParsedAddress
      • ReturnPrecisionCode
      • ReturnMatchScore
      • MustMatchAddressNumber
      • MustMatchStreet
      • MustMatchCity
      • MustMatchLocality
      • MustMatchState
      • MustMatchStateProvince
      • MustMatchPostCode
      • KeepMultiMatch
      • PreferPostalOverCity
      • CityFallback
      • PostalFallback
      • ValidationLevel
    5. AddressValidationDetail のインスタンスを作成します。ジョブの環境設定と、上で作成した addressValidationEngineConfigurationinputOption のインスタンスを引数として渡します。このインスタンスに次の詳細を設定します。
      注: Config パラメータは、MRJobConfig タイプ (MR ジョブ) および SparkJobConfig タイプ (Spark ジョブ) のインスタンスである必要があります。
      1. inputPath フィールドを使用して、入力ファイルの詳細を設定します。
        注:
        • テキスト入力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な入力ファイル情報を指定してFilePath のインスタンスを作成します。
        • ORC 入力ファイルの場合、ORC 入力ファイルのパスを引数に指定して OrcFilePath のインスタンスを作成します。
        • PARQUET 入力ファイルの場合、PARQUET 入力ファイルのパスを引数に指定して ParquetFilePath のインスタンスを作成します。
      2. outputPath フィールドを使用して、出力ファイルの詳細を設定します。
        注:
        • テキスト出力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な出力ファイル情報を指定してFilePath のインスタンスを作成します。
        • ORC 出力ファイルの場合、ORC 出力ファイルのパスを引数に指定して OrcFilePath のインスタンスを作成します。
        • PARQUET 出力ファイルの場合、PARQUET 出力ファイルのパスを引数に指定して ParquetFilePath のインスタンスを作成します。

      3. jobName フィールドを使用して、ジョブの名前を設定します。
      4. compressOutput フラグを false に設定して、ジョブの出力が圧縮されないようにします。
  3. MapReduce ジョブを作成するには、先ほど作成した AddressValidationFactory のインスタンスを使用してそのメソッド createJob() を呼び出します。ここで、上の AddressValidationDetail のインスタンスを引数として渡します。
    createJob() メソッドは、List のインスタンスの ControlledJob を返します。
  4. JobControl のインスタンスを使用して、作成したジョブを実行します。
  5. MapReduce ジョブの正常実行後にレポート カウンタを表示するには、先ほど作成した AddressValidationFactory のインスタンスを使用して、そのメソッド getCounters() を呼び出します。作成したジョブを引数として渡します。