設定ファイル

これらの表には、Validate Address Global ジョブを実行する前に指定する必要があるパラメータと値が記載されています。

表 1. inputFileConfig
パラメータ	説明
pb.bdq.input.type	入力ファイルの種類。値は `TEXT`、`ORC`、`PARQUET` のいずれかです。
pb.bdq.inputfile.path	入力ファイルを HDFS 上に置いたパス。例: /user/hduser/sampledata/addressing/ input/global/Global_Address.txt
textinputformat.record.delimiter	テキストタイプの入力ファイルで使用されるファイルレコード区切り文字。例えば、`LINUX`、`MACINTOSH`、または`WINDOWS`
pb.bdq.inputformat.field.delimiter	カンマ (`,`) またはタブなど、入力ファイルで使用されるフィールドまたは列の区切り文字。
pb.bdq.inputformat.text.qualifier	入力ファイルの列またはフィールドのテキスト修飾子 (存在する場合)。
pb.bdq.inputformat.file.header	入力ファイルで使用されるヘッダーのカンマ区切りの値。
pb.bdq.inputformat.skip.firstrow	最初の行をスキップするかどうか。値は `True` または `False` です。`True` はスキップを示します。

表 2. globalAddressingConfig
パラメータ	説明
pb.bdq.job.type	これは、ジョブを定義する定数値です。このジョブの値は、`GlobalAddressingValidate` です。
pb.bdq.job.name	ジョブの名前。デフォルトは `GlobalAddressingValidateSample` です。
pb.bdq.reference.data	リファレンスデータを配置している場所のパス。例: {"dataDir":"/home/hduser/ReferenceData/AddressQuality/Global","referenceDataPathLocation":"LocaltoDataNodes"}
pb.bdq.uam.global.engine.configurations.preload	グローバルエンジン設定のプリロードタイプ。値は、`NONE`、`FULL`、`PARTIAL` のいずれかです。
pb.bdq.uam.global.engine.configurations.database.type	グローバルエンジン設定のデータベースタイプ。値は、`BATCH_INTERACTIVE`、`FASTCOMPLETION`、`CERTIFIED` のいずれかです。
pb.bdq.uam.global.engine.configurations.supported.countries	United States Of America、Great Britain、Canada など、Global Address Validation ジョブでサポートされている国。注: 複数の国の値をカンマで区切って指定できます。
pb.bdq.uam.global.input.configuration	マッチモード、デフォルトの国、結果の最大数、結果の大文字と小文字の区別、州/省タイプ、最適化レベルなど、入力設定を定義する JSON 文字列。
pb.bdq.uam.global.general.configuration	キャッシュサイズ、最大スレッド数、メモリ使用量の上限など、全般的な設定を定義する JSON 文字列。
pb.bdq.uam.global.unlockCode	データベースのデータのロックを解除するコード。

表 3. globalAddressingConfigHDFSRefData(DataDownloader)
パラメータ	説明
pb.bdq.job.type	これは、ジョブを定義する定数値です。このジョブの値は、`GlobalAddressingValidate` です。
pb.bdq.job.name	ジョブの名前。デフォルトは `GlobalAddressingValidateSample` です。
pb.bdq.reference.data	HDFS 上にあるリファレンスデータのパスとデータダウンローダのパス。例: {"referenceDataPathLocation":"HDFS","dataDir":"/user/root/ReferenceData/Global/Global.zip","dataDownloader":{"dataDownloader":"HDFS", "localFSRepository":"/opt/PitneyBowes/ReferenceData/GlobalAddress"}}
pb.bdq.uam.input.groupby.region	APAC、EMEA、America など、入力住所データを地域別にグループ化するかどうかを指定します。値が `true` の場合、グループ化することを示します。注: このパラメータは、HDFS にリファレンスデータが配置されている場合にのみ適用されます。
pb.bdq.uam.global.engine.configurations.preload	グローバルエンジン設定のプリロードタイプ。値は、`NONE`、`FULL`、`PARTIAL` のいずれかです。
pb.bdq.uam.global.engine.configurations.database.type	グローバルエンジン設定のデータベースタイプ。値は、`BATCH_INTERACTIVE`、`FASTCOMPLETION`、`CERTIFIED` のいずれかです。
pb.bdq.uam.global.engine.configurations.supported.countries	United States Of America、Great Britain、Canada など、Global Address Validation ジョブでサポートされている国。注: 複数の国の値をカンマで区切って指定できます。
pb.bdq.uam.global.input.configuration	マッチモード、デフォルトの国、結果の最大数、結果の大文字と小文字の区別、州/省タイプ、最適化レベルなど、入力設定を定義する JSON 文字列。
pb.bdq.uam.global.general.configuration	キャッシュサイズ、最大スレッド数、メモリ使用量の上限など、全般的な設定を定義する JSON 文字列。
pb.bdq.uam.global.unlockCode	データベースのデータのロックを解除するコード。

表 4. globalAddressingConfigDistributedCache
パラメータ	説明
pb.bdq.job.type	これは、ジョブを定義する定数値です。このジョブの値は、`GlobalAddressingValidate` です。
pb.bdq.job.name	ジョブの名前。デフォルトは `GlobalAddressingValidateSample` です。
pb.bdq.reference.data	HDFS 上にあるリファレンスデータのパスとデータダウンローダのタイプ。例: {"dataDir":"/home/hduser/ReferenceData/AddressQuality/Global","referenceDataPathLocation":"HDFS","dataDownloader":{"dataDownloader":"DC"}}
pb.bdq.uam.global.engine.configurations.preload	グローバルエンジン設定のプリロードタイプ。値は、`NONE`、`FULL`、`PARTIAL` のいずれかです。
pb.bdq.uam.global.engine.configurations.database.type	グローバルエンジン設定のデータベースタイプ。値は、`BATCH_INTERACTIVE`、`FASTCOMPLETION`、`CERTIFIED` のいずれかです。
pb.bdq.uam.global.engine.configurations.supported.countries	United States Of America、Great Britain、Canada など、Global Address Validation ジョブでサポートされている国。注: 複数の国の値をカンマで区切って指定できます。
pb.bdq.uam.global.input.configuration	マッチモード、デフォルトの国、結果の最大数、結果の大文字と小文字の区別、州/省タイプ、最適化レベルなど、入力設定を定義する JSON 文字列。
pb.bdq.uam.global.general.configuration	キャッシュサイズ、最大スレッド数、メモリ使用量の上限など、全般的な設定を定義する JSON 文字列。
pb.bdq.uam.global.unlockCode	データベースのデータのロックを解除するコード。

表 5. mapReduceConfig
MapReduce 設定パラメータを指定します。
ジョブでの必要性に応じて、mapreduce.map.memory.mb、mapreduce.reduce.memory.mb、mapreduce.map.speculative などの MapReduce パラメータをカスタマイズします。注: このファイルは MapReduce ジョブでのみ使用します。

表 6. outputFileConfig
パラメータ	説明
pb.bdq.output.type	出力が `TEXT`、`ORC`、または `PARQUET` 形式の場合に指定します。
pb.bdq.outputfile.path	HDFS で出力ファイルを生成するパス。例: `/user/hduser/sampledata/addressing/output/global`
pb.bdq.outputformat.field.delimiter	カンマ (`,`) またはタブなどの出力ファイルのフィールドまたは列の区切り文字。
pb.bdq.output.overwrite	値が `true` のとき、出力フォルダはジョブが実行されるたびに上書きされます。
pb.bdq.outputformat.headerfile.create	出力ファイルにヘッダーが必要な場合は、`true` を指定します。
pb.bdq.job.print.counters.console	カウンタをコンソールまたはファイルに出力するかどうか。`True`は、コンソールにカウンタを出力することをます。
pb.bdq.job.counter.file.path	カウンタが出力されるパスとファイルの名前。pb.bdq.job.print.counters.console の値が `false` の場合は、これを指定する必要があります。
Parquet ファイルのプロパティ
parquet.compression	ページの圧縮に使用する圧縮アルゴリズム。`UNCOMPRESSED`、`SNAPPY`、`GZIP`、`LZO` のいずれかを指定します。デフォルトは `UNCOMPRESSED` です。
parquet.block.size	メモリにバッファリングされる行グループのサイズ。値を大きくするほど読み込み時の I/O が向上しますが、書き込み時のメモリ消費が大きくなります。デフォルトのサイズは 134217728 バイト (= 128 * 1024 * 1024) です。
parquet.page.size	ページはブロックを構成し、単一レコードにアクセスするために完全に読み込む必要がある最小単位です。デフォルトのサイズは 1048576 バイト (= 1 * 1024 * 1024) です。注: ページサイズが小さすぎると、圧縮に支障が生じます。
parquet.dictionary.page.size	デフォルトのサイズは 1048576 バイト (= 1 * 1024 * 1024) です。
parquet.enable.dictionary	辞書エンコーディングの有効または無効を指定する boolean 値 (`True` または `False`)。デフォルトは `True` です。
parquet.validation	デフォルトの boolean 値は `False` です。
parquet.writer.version	Writer のバージョンを指定します。`PARQUET_1_0` または `PARQUET_2_0` を指定する必要があります。デフォルトは `PARQUET_1_0` です。
parquet.writer.max-padding	デフォルト設定は、パディングなし、行グループサイズの 0% です。
parquet.page.size.check.estimate	デフォルトの boolean 値は `True` です。
parquet.page.size.row.check.min	デフォルト値は 100 です。
parquet.page.size.row.check.max	デフォルト値は 10000 です。