Global Address Validation Spark ジョブの使用
-
AddressValidationFactory
のインスタンスを、その静的メソッドgetInstance()
を使用して作成します。 -
ProcessType
を指定するAddressValidationDetail
のインスタンスを作成し、Global Address Validation ジョブの入力と出力の詳細を指定します。このインスタンスは、SparkProcessType タイプを使用する必要があります。これを行うには、次の手順に従います。-
productDatabaseInfo
のインスタンスを作成し、次の詳細を設定します。- ReferenceDataPath: 列挙 ReferenceDataPathLocation を使用します。
- CountryCode: 列挙 CountryCodes を使用します。
- ProcessType: Enum AddressValidationProcessType を使用します。
-
配列リスト クラス
ProductDatabaseInfoList
を作成し、add() メソッドを使用してProductDatabaseInfo
を挿入します。 -
AddressValidationEngineConfiguration
のインスタンスを作成し、このインスタンス内でProductDatabaseInfoList
を設定します。 -
AddressValidationInputOption
のインスタンスを作成し、この新しいインスタンスに次の詳細を設定します。- 大文字と小文字の区別
- MatchMode
- DefaultCountry
- MaximumResults
- ReturnInputAddress
- ReturnParsedAddress
- ReturnPrecisionCode
- ReturnMatchScore
- MustMatchAddressNumber
- MustMatchStreet
- MustMatchCity
- MustMatchLocality
- MustMatchState
- MustMatchStateProvince
- MustMatchPostCode
- KeepMultiMatch
- PreferPostalOverCity
- CityFallback
- PostalFallback
- ValidationLevel
-
AddressValidationDetail
のインスタンスを作成します。ジョブの環境設定と、上で作成したaddressValidationEngineConfiguration
とinputOption
のインスタンスを引数として渡します。このインスタンスに次の詳細を設定します。inputPath
フィールドを使用して、入力ファイルの詳細を設定します。注:- テキスト入力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な入力ファイル情報を指定して
FilePath
のインスタンスを作成します。 - ORC 入力ファイルの場合、ORC 入力ファイルのパスを引数に指定して
OrcFilePath
のインスタンスを作成します。 - PARQUET 入力ファイルの場合、PARQUET 入力ファイルのパスを引数に指定して ParquetFilePath のインスタンスを作成します。
- テキスト入力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な入力ファイル情報を指定して
outputPath
フィールドを使用して、出力ファイルの詳細を設定します。注:- テキスト出力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な出力ファイル情報を指定して
FilePath
のインスタンスを作成します。 - ORC 出力ファイルの場合、ORC 出力ファイルのパスを引数に指定して
OrcFilePath
のインスタンスを作成します。 -
PARQUET 出力ファイルの場合、PARQUET 出力ファイルのパスを引数に指定して ParquetFilePath のインスタンスを作成します。
- テキスト出力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な出力ファイル情報を指定して
jobName
フィールドを使用して、ジョブの名前を設定します。compressOutput
フラグを false に設定して、ジョブの出力が圧縮されないようにします。
-
-
Spark ジョブを作成するには、先ほど作成した
AddressValidationFactory
のインスタンスを使用してそのメソッドcreateJob()
を呼び出します。ここで、上のAddressValidationDetail
のインスタンスを引数として渡します。runSparkJob()
メソッドはジョブを実行し、ジョブのレポート カウンタのMap
を返します。 - カウンタを表示することにより、ジョブに対する統計レポートを表示します。