設定ファイル

これらの表には、Match Key Generator ジョブを実行する前に指定する必要のあるパラメータと値が記載されています。

表 1. inputFileConfig
パラメータ 説明
pb.bdq.input.type 入力ファイルの種類。値は TEXTORCPARQUET のいずれかです。
pb.bdq.inputfile.path 入力ファイルを HDFS 上に置いたパス。例: /user/hduser/sampledata/matchkeygenerator/input/MatchKey_Input.csv
textinputformat.record.delimiter テキスト タイプの入力ファイルで使用されるファイル レコード区切り文字。例えば、LINUXMACINTOSH、またはWINDOWS
pb.bdq.inputformat.field.delimiter カンマ (,) またはタブなど、入力ファイルで使用されるフィールドまたは列の区切り文字。
pb.bdq.inputformat.text.qualifier 入力ファイルの列またはフィールドのテキスト修飾子 (存在する場合)。
pb.bdq.inputformat.file.header カンマで区切られた値としての列ヘッダー。例えば、businessname、id、domain。
pb.bdq.inputformat.skip.firstrow 最初の行をスキップするかどうか。値は True または False です。True はスキップを示します。
表 2. mapReduceConfig
MapReduce 設定パラメータを指定します。
ジョブでの必要性に応じて、mapreduce.map.memory.mbmapreduce.reduce.memory.mbmapreduce.map.speculative などの MapReduce パラメータをカスタマイズします。
注: このファイルは MapReduce ジョブでのみ使用します。
表 3. matchKeyGeneratorConfig
パラメータ 説明
pb.bdq.job.type これは、ジョブを定義する定数値です。このジョブの値は MatchKeyGen です。
pb.bdq.job.name ジョブの名前。デフォルトは MatchKeySample です。
pb.bdq.match.keygenerator.json Match Key Generator のルールを表す JSON 文字列。マッチ キーの生成に使用するアルゴリズム、選択したアルゴリズムを適用するフィールド、指定したフィールド内の開始位置、開始位置から含める文字列の長さ、数字およびアルファベット以外の文字を除去するかどうか、入力フィールドをソートするかどうかなど。
表 4. outputFileConfig
パラメータ 説明
pb.bdq.output.type 出力ファイルの種類。値は TEXTORCPARQUET のいずれかです。
pb.bdq.outputfile.path HDFS で出力ファイルを生成するパス。
pb.bdq.outputformat.field.delimiter カンマ (,) またはタブなどの出力ファイルのフィールドまたは列の区切り文字。
pb.bdq.output.overwrite 値が true のとき、出力フォルダはジョブが実行されるたびに上書きされます。
pb.bdq.outputformat.headerfile.create 出力ファイルにヘッダーが必要な場合は、true を指定します。
Parquet ファイルのプロパティ
parquet.compression ページの圧縮に使用する圧縮アルゴリズム。UNCOMPRESSEDSNAPPYGZIPLZO のいずれかを指定します。

デフォルトは UNCOMPRESSED です。

parquet.block.size メモリにバッファリングされる行グループのサイズ。

値を大きくするほど読み込み時の I/O が向上しますが、書き込み時のメモリ消費が大きくなります。

デフォルトのサイズは 134217728 バイト (= 128 * 1024 * 1024) です。

parquet.page.size ページはブロックを構成し、単一レコードにアクセスするために完全に読み込む必要がある最小単位です。
デフォルトのサイズは 1048576 バイト (= 1 * 1024 * 1024) です。
注: ページ サイズが小さすぎると、圧縮に支障が生じます。
parquet.dictionary.page.size デフォルトのサイズは 1048576 バイト (= 1 * 1024 * 1024) です。
parquet.enable.dictionary 辞書エンコーディングの有効または無効を指定する boolean 値 (True または False)。デフォルトは True です。
parquet.validation デフォルトの boolean 値は False です。
parquet.writer.version Writer のバージョンを指定します。PARQUET_1_0 または PARQUET_2_0 を指定する必要があります。デフォルトは PARQUET_1_0 です。
parquet.writer.max-padding デフォルト設定は、パディングなし、行グループ サイズの 0% です。
parquet.page.size.check.estimate デフォルトの boolean 値は True です。
parquet.page.size.row.check.min デフォルト値は 100 です。
parquet.page.size.row.check.max デフォルト値は 10000 です。