Group-By Option |
MapReduce ジョブの場合は、次の引数を渡します。
- GroupBy Column
- レコードのグループ化に使用する列の名前。
- Number of Reducer Tasks
- レコードのグループ化に必要なリデューサー タスクの数。
Spark ジョブの場合は、Group-By オプションを作成するために次の引数を渡します。
- GroupBy Column
- レコードのグループ化に使用する列の名前。
|
Match Rule |
親ルールと子ルールを、MatchRule オブジェクトの作成に必要な数だけ定義します。詳細については、「MatchRule」を参照してください。 |
Candidate File |
テキスト ファイルの場合:
- File Path
- Hadoop プラットフォーム上の候補テキスト ファイルのパス。
- レコード区切り文字
- 候補ファイル内で使用されるレコード区切り文字。
- Field Separator
- 候補ファイルで、レコード内の連続する 2 つのフィールドの間に使用される区切り文字。
- Text Qualifier
- 区切り記号付きファイル内のテキスト値を囲むのに使用する文字。
- Header Row Fields
- 候補ファイルのヘッダー フィールドの配列。
- Skip First Row
- サスペクト ファイル レコードの読み取り時に、先頭行をスキップするかどうかを示すフラグ。
先頭行がヘッダー行である場合は、これを true にする必要があります。
注: FilePath の適切なコンストラクタを呼び出します。 ORC 形式ファイル:
- ORC File Path
- Hadoop プラットフォーム上の入力 ORC 形式ファイルのパス。
重要: サスペクト ファイルと候補ファイルは、同じファイル形式である必要があります。テキスト ファイルまたは ORC 形式のファイル。 共通パラメータ:
- Field Mappings
- キー値ペアのマップ。既存の列名をキーとし、対応する出力列名を値としてマッピングします。
|
Suspect File |
テキスト ファイルの場合:
- File Path
- Hadoop プラットフォーム上のサスペクト テキスト ファイルのパス。
- レコード区切り文字
- サスペクト ファイル内で使用されるレコード区切り文字。
- Field Separator
- サスペクト ファイルで、レコード内の連続する 2 つのフィールドの間に使用される区切り文字。
- Text Qualifier
- 区切り記号付きファイル内のテキスト値を囲むのに使用する文字。
- Header Row Fields
- サスペクト ファイルのヘッダーフィールドの配列。
- Skip First Row
- サスペクト ファイル レコードの読み取り時に、先頭行をスキップするかどうかを示すフラグ。
先頭行がヘッダー行である場合は、これを true にする必要があります。
注: FilePath の適切なコンストラクタを呼び出します。 ORC 形式ファイル:
- ORC File Path
- Hadoop プラットフォーム上の入力 ORC 形式ファイルのパス。
共通パラメータ:
- Field Mappings
- キー値ペアのマップ。既存の列名をキーとし、対応する出力列名を値としてマッピングします。
|
Output File |
テキスト ファイルの場合:
- File Path
- Hadoop プラットフォーム上の出力テキスト ファイルのパス。
- Field Separator
- 出力ファイルで、レコード内の連続する 2 つのフィールドの間に使用される区切り文字。
注: FilePath の適切なコンストラクタを呼び出します。 ORC 形式ファイル:
- ORC File Path
- Hadoop プラットフォーム上の出力 ORC 形式ファイルのパス。
PARQUET 形式ファイル:
- Parquet File Path
- Hadoop プラットフォーム上の出力 PARQUET 形式ファイルのパス。
共通パラメータ:
- Overwrite
- 出力ファイルと同じ名前のファイルが既に存在する場合に、上書きするかどうかを示すフラグ。
- Create Output Header
- ヘッダー ファイルを Hadoop サーバー上に作成するかどうかを示すフラグ。
|
Job Configurations |
ジョブ用の Hadoop 設定 MapReduce ジョブの場合、インスタンスのタイプは MRJobConfig である必要があります。Spark ジョブの場合、インスタンスのタイプは SparkJobConfig である必要があります。 |
Match Key Settings |
マッチングの実行に必要なマッチ キーの生成に適用する、列とアルゴリズムの組み合わせ。 注: マッチ キーを 1 つだけ指定します。 注: マッチ キー設定は、マッチングを実行する前にマッチ キーを生成する場合のみ、設定します。 |
Job Name |
ジョブの名前。 |
Express Match Column |
レコードの Express マッチに使用する列名。 |
Setting Collection Number Zero to Unique Records |
ユニーク レコードのコレクション番号を 0 (ゼロ) に設定する場合は、これを true にします。 |
Comparison Option |
次の 2 つのオプションのいずれかを選択できます。 |
Compress Output |
出力を圧縮するかどうかを示すフラグ。 出力を圧縮する場合は true を設定します。 |