設定ファイル - Address Validation

これらの表には、Global Address Validation ジョブを実行する前に指定する必要があるパラメータと値が記載されています。

表 1. inputFileConfig
パラメータ 説明
pb.bdq.input.type 入力ファイルの種類。値は TEXTORCPARQUET のいずれかです。
pb.bdq.inputfile.path 入力ファイルを HDFS 上に置いたパス。例: /user/hduser/sampledata/addressing/ input/global/Global_Address.txt
textinputformat.record.delimiter テキスト タイプの入力ファイルで使用されるファイル レコード区切り文字。例えば、LINUXMACINTOSH、またはWINDOWS
pb.bdq.inputformat.field.delimiter カンマ (,) またはタブなど、入力ファイルで使用されるフィールドまたは列の区切り文字。
pb.bdq.inputformat.text.qualifier 入力ファイルの列またはフィールドのテキスト修飾子 (存在する場合)。
pb.bdq.inputformat.file.header 入力ファイルで使用されるヘッダーのカンマ区切りの値。
pb.bdq.inputformat.skip.firstrow 最初の行をスキップするかどうか。値は True または False です。True はスキップを示します。
表 2. addressValidationConfig
パラメータ 説明
pb.bdq.job.type これは、ジョブを定義する定数値です。このジョブの値は、AddressValidation です。
pb.bdq.job.name ジョブの名前。デフォルトは AddressValidationSample です。
pb.bdq.reference.data リファレンス データを配置している場所のパス。例: {"dataDir":"/home/hduser/ReferenceData/ AddressQuality/GAM","referenceDataPathLocation": "LocaltoDataNodes"}
pb.bdq.uam.addressvalidation.input.option マッチ モード、結果の大文字と小文字の区別、デフォルトの国など、入力設定を定義する JSON 文字列。
pb.bdq.uam.addressvalidation.engine.configurations データベース パス、国コード、プロセス タイプなど、エンジン設定を定義する JSON 文字列。
表 3. usaAddressValidationConfig
パラメータ 説明
pb.bdq.job.type これは、ジョブを定義する定数値です。このジョブの値は、AddressValidation です。
pb.bdq.job.name ジョブの名前。デフォルトは AddressValidationSample です。
pb.bdq.gam.addressvalidation.input.option マッチ モード、結果の大文字と小文字の区別、デフォルトの国など、入力設定を定義する JSON 文字列。
注: この場合、デフォルトの国は米国 (USA) です。
pb.bdq.gam.addressvalidation.engine.configurations データベース パス、国コード、プロセス タイプなど、エンジン設定を定義する JSON 文字列。
例:
{"productDatabaseInfoList":
[{"referenceDataPath":{"referenceDataPathLocation":
"LocaltoDataNodes","dataDir":
"/user/hadoop/ReferenceData/GAV_US_DOM"},
"countryCode":["USA"],"processType":"VALIDATE"}]}
表 4. addressValidationConfigHDFSRefData(DataDownloader)
パラメータ 説明
pb.bdq.job.type これは、ジョブを定義する定数値です。このジョブの値は、AddressValidation です。
pb.bdq.job.name ジョブの名前。デフォルトは AddressValidationSample です。
pb.bdq.reference.data HDFS 上にあるリファレンス データのパスとデータ ダウンローダのパス。例: {"referenceDataPathLocation":"HDFS","dataDir":"/user/root/ReferenceData/AddressValidation","dataDownloader":{"dataDownloader":"HDFS","localFSRepository":"/opt/PitneyBowes/ReferenceData/AddressValidation"}}
pb.bdq.uam.addressvalidation.input.option マッチ モード、結果の大文字と小文字の区別、デフォルトの国など、入力設定を定義する JSON 文字列。
pb.bdq.uam.addressvalidation.engine.configurations データベース パス、国コード、プロセス タイプなど、エンジン設定を定義する JSON 文字列。
表 5. usaAddressValidationConfigHDFSRefData_DataDownloader
パラメータ 説明
pb.bdq.job.type これは、ジョブを定義する定数値です。このジョブの値は、AddressValidation です。
pb.bdq.job.name ジョブの名前。デフォルトは AddressValidationSample です。
pb.bdq.gam.addressvalidation.input.option マッチ モード、結果の大文字と小文字の区別、デフォルトの国など、入力設定を定義する JSON 文字列。
注: この場合、デフォルトの国は米国 (USA) です。
pb.bdq.gam.addressvalidation.engine.configurations データベース パス、国コード、プロセス タイプなど、エンジン設定を定義する JSON 文字列。例:
{"productDatabaseInfoList":
[{"referenceDataPath":{"referenceDataPathLocation"
:"HDFS","dataDir":
"/user/hadoop/RefrenceData/AddressValidation",
"dataDownloader":{"dataDownloader":"HDFS",
"localFSRepository":
"/opt/PitneyBowes/ReferenceData/AddressValidation"}},
"countryCode":["USA"],"processType":"VALIDATE"}]}
表 6. addressValidationConfigDistributedCache
パラメータ 説明
pb.bdq.job.type これは、ジョブを定義する定数値です。このジョブの値は、AddressValidation です。
pb.bdq.job.name ジョブの名前。デフォルトは AddressValidationSample です。
pb.bdq.reference.data HDFS 上にあるリファレンス データのパスとデータ ダウンローダのタイプ。例: {"dataDir":"/home/hduser/ReferenceData/AddressQuality/GAM","referenceDataPathLocation":"HDFS","dataDownloader":{"dataDownloader":"DC"}}
pb.bdq.uam.addressvalidation.input.option マッチ モード、結果の大文字と小文字の区別、デフォルトの国など、入力設定を定義する JSON 文字列。
pb.bdq.uam.addressvalidation.engine.configurations データベース パス、国コード、プロセス タイプなど、エンジン設定を定義する JSON 文字列。
表 7. usaAddressValidationConfigDistributedCache
パラメータ 説明
pb.bdq.job.type これは、ジョブを定義する定数値です。このジョブの値は、AddressValidation です。
pb.bdq.job.name ジョブの名前。デフォルトは AddressValidationSample です。
pb.bdq.gam.addressvalidation.input.option マッチ モード、結果の大文字と小文字の区別、デフォルトの国など、入力設定を定義する JSON 文字列。
注: この場合、デフォルトの国は米国 (USA) です。
pb.bdq.gam.addressvalidation.engine.configurations データベース パス、国コード、プロセス タイプなど、エンジン設定を定義する JSON 文字列。例:
{"productDatabaseInfoList":
[{"referenceDataPath":{"referenceDataPathLocation"
:"HDFS","dataDir":"/RefrenceData/AddressValidation",
"dataDownloader":{"dataDownloader":"DC"}},
"countryCode":["USA"],"processType":"VALIDATE"}]}
注: 国コードは "USA"
pb.bdq.uam.input.groupby.region リファレンス データが HDFS に配置されている場合、入力データが地域 (APAC、EMEA、アメリカ) 別にグループ化されているかどうかが指定されます。
注: この場合、値は "false" です。
表 8. mapReduceConfig
MapReduce 設定パラメータを指定します。
ジョブでの必要性に応じて、mapreduce.map.memory.mbmapreduce.reduce.memory.mbmapreduce.map.speculative などの MapReduce パラメータをカスタマイズします。
注: このファイルは MapReduce ジョブでのみ使用します。
表 9. outputFileConfig
パラメータ 説明
pb.bdq.output.type 出力が TEXTORC、または PARQUET 形式の場合に指定します。
pb.bdq.outputfile.path HDFS で出力ファイルを生成するパス。例: /user/hduser/sampledata/addressing/output/global
pb.bdq.outputformat.field.delimiter カンマ (,) またはタブなどの出力ファイルのフィールドまたは列の区切り文字。
pb.bdq.output.overwrite 値が true のとき、出力フォルダはジョブが実行されるたびに上書きされます。
pb.bdq.outputformat.headerfile.create 出力ファイルにヘッダーが必要な場合は、true を指定します。
pb.bdq.job.print.counters.console カウンタをコンソールまたはファイルに出力するかどうか。Trueは、コンソールにカウンタを出力することをます。
pb.bdq.job.counter.file.path カウンタが出力されるパスとファイルの名前。pb.bdq.job.print.counters.console の値が false の場合は、これを指定する必要があります。
Parquet ファイルのプロパティ
parquet.compression ページの圧縮に使用する圧縮アルゴリズム。UNCOMPRESSEDSNAPPYGZIPLZO のいずれかを指定します。

デフォルトは UNCOMPRESSED です。

parquet.block.size メモリにバッファリングされる行グループのサイズ。

値を大きくするほど読み込み時の I/O が向上しますが、書き込み時のメモリ消費が大きくなります。

デフォルトのサイズは 134217728 バイト (= 128 * 1024 * 1024) です。

parquet.page.size ページはブロックを構成し、単一レコードにアクセスするために完全に読み込む必要がある最小単位です。
デフォルトのサイズは 1048576 バイト (= 1 * 1024 * 1024) です。
注: ページ サイズが小さすぎると、圧縮に支障が生じます。
parquet.dictionary.page.size デフォルトのサイズは 1048576 バイト (= 1 * 1024 * 1024) です。
parquet.enable.dictionary 辞書エンコーディングの有効または無効を指定する boolean 値 (True または False)。デフォルトは True です。
parquet.validation デフォルトの boolean 値は False です。
parquet.writer.version Writer のバージョンを指定します。PARQUET_1_0 または PARQUET_2_0 を指定する必要があります。デフォルトは PARQUET_1_0 です。
parquet.writer.max-padding デフォルト設定は、パディングなし、行グループ サイズの 0% です。
parquet.page.size.check.estimate デフォルトの boolean 値は True です。
parquet.page.size.row.check.min デフォルト値は 100 です。
parquet.page.size.row.check.max デフォルト値は 10000 です。