Validate Address Global Spark ジョブの使用

  1. GlobalAddressingFactory のインスタンスを、その静的メソッド getInstance() を使用して作成します。
  2. ProcessType を指定する GlobalAddressingDetail のインスタンスを作成して、Validate Address Global ジョブの入力と出力の詳細を指定します。このインスタンスは、SparkProcessType タイプを使用する必要があります。これを行うには、次の手順に従います。
    1. GlobalAddressingGeneralConfiguration のインスタンスを作成することによって、JVM の初期化を設定します。
      列挙体 列挙 CacheSize列挙 RangesToExpand、および 列挙 FlexibleRangeExpansion を使用します。
    2. ReferenceDataPath のインスタンスを作成することによって、リファレンス データ パスの詳細を設定します。列挙 ReferenceDataPathLocation を参照してください。
    3. 必要なデータベース設定を指定します。これには、前述の ReferenceDataPath インスタンスを引数として渡して、GlobalAddressingEngineConfiguration のインスタンスを作成します。
      1. 列挙体 列挙 PreloadingType を使用してこのインスタンスのプリロード タイプを設定します。
      2. 列挙 DatabaseType 使用してデータベース タイプを設定します。
      3. 列挙 CountryCodes を使用してサポートされる国を設定します。
      4. すべての国をサポートする場合は、isAllCountries 属性を true に設定します。そうでない場合は、列挙 CountryCodes の値をコンマで区切ったリストで supportedCountries 文字列値に指定します。
    4. GlobalAddressingInputConfiguration のインスタンスを作成することによって、入力を設定します。
      このインスタンスの各種フィールドの値を設定するには、列挙体 列挙 CountryCodes列挙 StateProvinceType列挙 CountryType列挙 PreferredScript列挙 PreferredLanguage列挙 Casing列挙 OptimizationLevel列挙 Mode、および 列挙 MatchingScope の該当するものを使用します。
    5. データにアンロック キーを ListString 値として設定します。
    6. GlobalAddressingDetail のインスタンスを作成します。Config タイプのインスタンスと、先ほど作成したアンロック コード値の ListGlobalAddressingEngineConfiguration インスタンス、および GlobalAddressingInputConfiguration インスタンスを引数としてコンストラクタに渡します。

      Config パラメータは、SparkJobConfig タイプのインスタンスである必要があります。

      このパラメータの GROUPBY_REGION の値は、デフォルトで true に設定されます。このジョブは、追加したリファレンス データに従って、このリージョンの住所を処理します。例えば、ドイツのリファレンス データが HDFS に配置されている場合は、ドイツの入力住所が処理されます。

      1. JVM 初期化構成を設定します。GlobalAddressingDetail インスタンスの generalConfiguration フィールドを上で作成した GlobalAddressingGeneralConfiguration インスタンスに設定します。
      2. inputPath インスタンスの GlobalAddressingDetail フィールドを使用して、入力ファイルの詳細を設定します。
        注:
        • テキスト入力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な入力ファイル情報を指定してFilePath のインスタンスを作成します。
        • ORC 入力ファイルの場合、ORC 入力ファイルのパスを引数に指定して OrcFilePath のインスタンスを作成します。
        • PARQUET 入力ファイルの場合、PARQUET 入力ファイルのパスを引数に指定して ParquetFilePath のインスタンスを作成します。
      3. GlobalAddressingDetail インスタンスの outputPath フィールドを使用して、出力ファイルの詳細を設定します。
        注:
        • テキスト出力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な出力ファイル情報を指定してFilePath のインスタンスを作成します。
        • ORC 出力ファイルの場合、ORC 出力ファイルのパスを引数に指定して OrcFilePath のインスタンスを作成します。
        • PARQUET 出力ファイルの場合、PARQUET 出力ファイルのパスを引数に指定して ParquetFilePath のインスタンスを作成します。

      4. jobName インスタンスの GlobalAddressingDetail フィールドを使用して、ジョブの名前を設定します。
  3. Spark ジョブを作成して実行するには、先ほど作成した GlobalAddressingFactory のインスタンスを使用してそのメソッド runSparkJob() を呼び出します。ここで、上の GlobalAddressingDetail のインスタンスを引数として渡します。
    runSparkJob() メソッドはジョブを実行し、ジョブのレポート カウンタの Map を返します。
  4. カウンタを表示することにより、ジョブに対する統計レポートを表示します。