特殊なシナリオ
Group-By 列が空白のレコード
Group-By の値が空白のレコードはすべて、形式に誤りがあるとみなされ、出力 HDFS フォルダへ別のファイルに出力されます。形式に誤りがあるこれらのファイルは、次のように名前が付けられます。
形式誤りレコードのカウンタ- 候補ファイル内の形式誤りレコード
- 候補ファイル内の Group-By 列が空白のレコードは、形式に誤りがあるとして破棄され、malformedRecordsCandidate-m-<5 digit numeral> という命名規則に従って名前が付けられたファイルに挿入されます。
例えば、malformedRecordsCandidate-m-00000、malformedRecordsCandidate-m-00001 です。
これは、Interflow Match ジョブに適用されます。
- サスペクト ファイル内の形式誤りレコード
- サスペクト ファイル内の Group-By 列が空白のレコードは、形式に誤りがあるとして破棄され、malformedRecordsSuspect-m-<5 digit numeral> という命名規則に従って名前が付けられたファイルに挿入されます。
例えば、malformedRecordsSuspect-m-00000、malformedRecordsSuspect-m-00001 です。
これは、Interflow Match ジョブに適用されます。
- 入力ファイル内の形式誤りレコード
- 入力ファイル内の Group-By 列が空白のレコードは、形式に誤りがあるとして破棄され、malformedRecords-m-<5 digit numeral> という命名規則に従って名前が付けられたファイルに挿入されます。
例えば、malformedRecords-m-00000、malformedRecords-m-00001 です。
これは、Intraflow Match、Transactional Match、Best of Breed、Duplicate Synchronization、Filter のジョブに適用されます。
1 回のジョブ実行における形式誤りレコードの数は、次のカウンタに保存されます。
- MALFORMED_CANDIDATE_RECORDS
- MALFORMED_SUSPECT_RECORDS
- MALFORMED_RECORDS
注: これらのカウンタの値には、
AdvanceMatchFactory
インスタンスの getCounters()
メソッドを呼び出すことによってアクセスできます。