Candidate Finder

Candidate Finder は、一連の潜在的なマッチを形成する候補レコードを取得します。検索インデックス検索は Transactional Match とは別に機能します。また、Candidate Finder では、データの書式によっては、サスペクト レコード、候補レコード、またはその両方のレコードの名前や住所のパーシングが必要となる場合もあります。

また、Candidate Finder ではフルテキスト インデックス検索も可能で、さまざまな検索タイプ (数値、範囲、すべて含む、いずれも含まない) と条件 (すべて真、いずれかが真) を使用して、文字やテキストの高度な検索条件を容易に定義できます。
注: 検索インデックスを保存するには、クラスタで HBase NoSQL データベースが利用でき、アクセス可能であることが必要です。

設定ファイル

これらの表には、Candidate Finder ジョブを実行する前に指定する必要があるパラメータと値が記載されています。

表 1. inputFileConfig
パラメータ 説明
pb.bdq.input.type 入力ファイルの種類。値は TEXTORCPARQUET のいずれかです。
pb.bdq.inputfile.path 入力ファイルを HDFS 上に置いたパス。例: /user/hduser/sampledata/candidatefinder/input/CandidateFinder_Input.csv
textinputformat.record.delimiter テキスト タイプの入力ファイルで使用されるファイル レコード区切り文字。例えば、LINUXMACINTOSH、またはWINDOWS
pb.bdq.inputformat.field.delimiter カンマ (,) またはタブなど、入力ファイルで使用されるフィールドまたは列の区切り文字。
pb.bdq.inputformat.text.qualifier 入力ファイルの列またはフィールドのテキスト修飾子 (存在する場合)。
pb.bdq.inputformat.file.header 入力ファイルで使用されるヘッダーのカンマ区切りの値。例: IN_MonthNumber,IN_WeekNumber,IN_MonthName,IN_WeekdayName
pb.bdq.inputformat.skip.firstrow 最初の行をスキップするかどうか。値は True または False です。True はスキップを示します。
表 2. candidateFinderConfig
パラメータ 説明
pb.bdq.job.type これは、ジョブを定義する定数値です。このジョブでの値は、CandidateFinder です。
pb.bdq.job.name ジョブの名前。

デフォルト値は CandidateFinderSample です。

pb.bdq.amm.search.cf.query.json Candidate Finder クエリの JSON 文字列を定義します。
pb.bdq.amm.search.cf.index.output.fields インデックス内のどの保存済みフィールドが出力に含まれるかを指定します。
pb.bdq.amm.search.cf.index.name インデックスまたはテーブルの名前を定義します。
pb.bdq.amm.search.cf.max.results ステージによって返されるレスポンスの最大数を指定します。デフォルト値は 10 です。
pb.bdq.amm.search.cf.fetch.batchsize 結果の最大数が任意に大きい場合に備えて、結果を処理するバッチのサイズを指定します。これにより、多数のレコードの処理が最適化されます。

デフォルト値は 10000 です。

pb.bdq.amm.search.cf.start.record 検索の起点となるレコード番号。

デフォルトは 1 です。

表 3. mapReduceConfig
MapReduce 設定パラメータを指定します。
ジョブでの必要性に応じて、mapreduce.map.memory.mbmapreduce.reduce.memory.mbmapreduce.map.speculative などの MapReduce パラメータをカスタマイズします。
注: このファイルは MapReduce ジョブでのみ使用します。
注: このジョブでは、これら 2 つの追加の MapReduce および Spark 設定パラメータの値を指定する必要があります。
  • hbase.zookeeper.quorum
  • hbase.zookeeper.property.clientPort
表 4. OutputFileConfig
パラメータ 説明
pb.bdq.output.type 出力が TEXTORC、または PARQUET 形式の場合に指定します。
pb.bdq.outputfile.path HDFS で出力ファイルを生成するパス。例: /user/hduser/sampledata/candidatefinder/output
pb.bdq.outputformat.field.delimiter カンマ (,) またはタブなどの出力ファイルのフィールドまたは列の区切り文字。
pb.bdq.output.overwrite 値が true のとき、出力フォルダはジョブが実行されるたびに上書きされます。
pb.bdq.outputformat.headerfile.create 出力ファイルにヘッダーが必要な場合は、true を指定します。