Candidate Finder

Candidate Finder は、一連の潜在的なマッチを形成する候補レコードを取得します。検索インデックス検索は Transactional Match とは別に機能します。また、Candidate Finder では、データの書式によっては、サスペクトレコード、候補レコード、またはその両方のレコードの名前や住所のパーシングが必要となる場合もあります。

また、Candidate Finder ではフルテキストインデックス検索も可能で、さまざまな検索タイプ (数値、範囲、すべて含む、いずれも含まない) と条件 (すべて真、いずれかが真) を使用して、文字やテキストの高度な検索条件を容易に定義できます。

注: 検索インデックスを保存するには、クラスタで HBase NoSQL データベースが利用でき、アクセス可能であることが必要です。

設定ファイル

これらの表には、Candidate Finder ジョブを実行する前に指定する必要があるパラメータと値が記載されています。

表 1. inputFileConfig
パラメータ	説明
pb.bdq.input.type	入力ファイルの種類。値は `TEXT`、`ORC`、`PARQUET` のいずれかです。
pb.bdq.inputfile.path	入力ファイルを HDFS 上に置いたパス。例: /user/hduser/sampledata/candidatefinder/input/CandidateFinder_Input.csv
textinputformat.record.delimiter	テキストタイプの入力ファイルで使用されるファイルレコード区切り文字。例えば、`LINUX`、`MACINTOSH`、または`WINDOWS`
pb.bdq.inputformat.field.delimiter	カンマ (`,`) またはタブなど、入力ファイルで使用されるフィールドまたは列の区切り文字。
pb.bdq.inputformat.text.qualifier	入力ファイルの列またはフィールドのテキスト修飾子 (存在する場合)。
pb.bdq.inputformat.file.header	入力ファイルで使用されるヘッダーのカンマ区切りの値。例: `IN_MonthNumber`,`IN_WeekNumber`,`IN_MonthName`,`IN_WeekdayName`
pb.bdq.inputformat.skip.firstrow	最初の行をスキップするかどうか。値は `True` または `False` です。`True` はスキップを示します。

表 2. candidateFinderConfig
パラメータ	説明
pb.bdq.job.type	これは、ジョブを定義する定数値です。このジョブでの値は、`CandidateFinder` です。
pb.bdq.job.name	ジョブの名前。デフォルト値は `CandidateFinderSample` です。
pb.bdq.amm.search.cf.query.json	Candidate Finder クエリの JSON 文字列を定義します。
pb.bdq.amm.search.cf.index.output.fields	インデックス内のどの保存済みフィールドが出力に含まれるかを指定します。
pb.bdq.amm.search.cf.index.name	インデックスまたはテーブルの名前を定義します。
pb.bdq.amm.search.cf.max.results	ステージによって返されるレスポンスの最大数を指定します。デフォルト値は `10` です。
pb.bdq.amm.search.cf.fetch.batchsize	結果の最大数が任意に大きい場合に備えて、結果を処理するバッチのサイズを指定します。これにより、多数のレコードの処理が最適化されます。デフォルト値は `10000` です。
pb.bdq.amm.search.cf.start.record	検索の起点となるレコード番号。デフォルトは `1` です。

表 3. mapReduceConfig
MapReduce 設定パラメータを指定します。
ジョブでの必要性に応じて、mapreduce.map.memory.mb、mapreduce.reduce.memory.mb、mapreduce.map.speculative などの MapReduce パラメータをカスタマイズします。注: このファイルは MapReduce ジョブでのみ使用します。

注: このジョブでは、これら 2 つの追加の MapReduce および Spark 設定パラメータの値を指定する必要があります。

hbase.zookeeper.quorum
hbase.zookeeper.property.clientPort

表 4. OutputFileConfig
パラメータ	説明
pb.bdq.output.type	出力が `TEXT`、`ORC`、または `PARQUET` 形式の場合に指定します。
pb.bdq.outputfile.path	HDFS で出力ファイルを生成するパス。例: `/user/hduser/sampledata/candidatefinder/output`。
pb.bdq.outputformat.field.delimiter	カンマ (`,`) またはタブなどの出力ファイルのフィールドまたは列の区切り文字。
pb.bdq.output.overwrite	値が `true` のとき、出力フォルダはジョブが実行されるたびに上書きされます。
pb.bdq.outputformat.headerfile.create	出力ファイルにヘッダーが必要な場合は、`true` を指定します。