Candidate Finder
Candidate Finder は、一連の潜在的なマッチを形成する候補レコードを取得します。検索インデックス検索は Transactional Match とは別に機能します。また、Candidate Finder では、データの書式によっては、サスペクト レコード、候補レコード、またはその両方のレコードの名前や住所のパーシングが必要となる場合もあります。
また、Candidate Finder ではフルテキスト インデックス検索も可能で、さまざまな検索タイプ (数値、範囲、すべて含む、いずれも含まない) と条件 (すべて真、いずれかが真) を使用して、文字やテキストの高度な検索条件を容易に定義できます。
注: 検索インデックスを保存するには、クラスタで HBase NoSQL データベースが利用でき、アクセス可能であることが必要です。
設定ファイル
これらの表には、Candidate Finder ジョブを実行する前に指定する必要があるパラメータと値が記載されています。
パラメータ | 説明 |
---|---|
pb.bdq.input.type | 入力ファイルの種類。値は TEXT、ORC、PARQUET のいずれかです。 |
pb.bdq.inputfile.path | 入力ファイルを HDFS 上に置いたパス。例: /user/hduser/sampledata/candidatefinder/input/CandidateFinder_Input.csv |
textinputformat.record.delimiter | テキスト タイプの入力ファイルで使用されるファイル レコード区切り文字。例えば、LINUX、MACINTOSH、またはWINDOWS |
pb.bdq.inputformat.field.delimiter | カンマ (,) またはタブなど、入力ファイルで使用されるフィールドまたは列の区切り文字。 |
pb.bdq.inputformat.text.qualifier | 入力ファイルの列またはフィールドのテキスト修飾子 (存在する場合)。 |
pb.bdq.inputformat.file.header | 入力ファイルで使用されるヘッダーのカンマ区切りの値。例: IN_MonthNumber,IN_WeekNumber,IN_MonthName,IN_WeekdayName |
pb.bdq.inputformat.skip.firstrow | 最初の行をスキップするかどうか。値は True または False です。True はスキップを示します。 |
パラメータ | 説明 |
---|---|
pb.bdq.job.type | これは、ジョブを定義する定数値です。このジョブでの値は、CandidateFinder です。 |
pb.bdq.job.name | ジョブの名前。 デフォルト値は CandidateFinderSample です。 |
pb.bdq.amm.search.cf.query.json | Candidate Finder クエリの JSON 文字列を定義します。 |
pb.bdq.amm.search.cf.index.output.fields | インデックス内のどの保存済みフィールドが出力に含まれるかを指定します。 |
pb.bdq.amm.search.cf.index.name | インデックスまたはテーブルの名前を定義します。 |
pb.bdq.amm.search.cf.max.results | ステージによって返されるレスポンスの最大数を指定します。デフォルト値は 10 です。 |
pb.bdq.amm.search.cf.fetch.batchsize | 結果の最大数が任意に大きい場合に備えて、結果を処理するバッチのサイズを指定します。これにより、多数のレコードの処理が最適化されます。 デフォルト値は 10000 です。 |
pb.bdq.amm.search.cf.start.record | 検索の起点となるレコード番号。 デフォルトは 1 です。 |
MapReduce 設定パラメータを指定します。 |
---|
ジョブでの必要性に応じて、mapreduce.map.memory.mb、mapreduce.reduce.memory.mb、mapreduce.map.speculative などの MapReduce パラメータをカスタマイズします。 注: このファイルは MapReduce ジョブでのみ使用します。 |
注: このジョブでは、これら 2 つの追加の MapReduce および Spark 設定パラメータの値を指定する必要があります。
- hbase.zookeeper.quorum
- hbase.zookeeper.property.clientPort
パラメータ | 説明 |
---|---|
pb.bdq.output.type | 出力が TEXT、ORC、または PARQUET 形式の場合に指定します。 |
pb.bdq.outputfile.path | HDFS で出力ファイルを生成するパス。例: /user/hduser/sampledata/candidatefinder/output。 |
pb.bdq.outputformat.field.delimiter | カンマ (,) またはタブなどの出力ファイルのフィールドまたは列の区切り文字。 |
pb.bdq.output.overwrite | 値が true のとき、出力フォルダはジョブが実行されるたびに上書きされます。 |
pb.bdq.outputformat.headerfile.create | 出力ファイルにヘッダーが必要な場合は、true を指定します。 |