入力パラメータ


パラメータ	説明
Group-By Option	MapReduce ジョブの場合は、次の引数を渡します。 GroupBy Column レコードのグループ化に使用する列の名前。 Number of Reducer Tasks レコードのグループ化に必要なリデューサータスクの数。 Spark ジョブの場合は、Group-By オプションを作成するために次の引数を渡します。 GroupBy Column レコードのグループ化に使用する列の名前。
Match Rule	親ルールと子ルールを、`MatchRule` オブジェクトの作成に必要な数だけ定義します。詳細については、「MatchRule」を参照してください。
Candidate File	テキストファイルの場合: File Path Hadoop プラットフォーム上の候補テキストファイルのパス。レコード区切り文字候補ファイル内で使用されるレコード区切り文字。 Field Separator 候補ファイルで、レコード内の連続する 2 つのフィールドの間に使用される区切り文字。 Text Qualifier 区切り記号付きファイル内のテキスト値を囲むのに使用する文字。 Header Row Fields 候補ファイルのヘッダーフィールドの配列。 Skip First Row サスペクトファイルレコードの読み取り時に、先頭行をスキップするかどうかを示すフラグ。先頭行がヘッダー行である場合は、これを `true` にする必要があります。注: `FilePath` の適切なコンストラクタを呼び出します。 ORC 形式ファイル: ORC File Path Hadoop プラットフォーム上の入力 ORC 形式ファイルのパス。重要: サスペクトファイルと候補ファイルは、同じファイル形式である必要があります。テキストファイルまたは ORC 形式のファイル。共通パラメータ: Field Mappings キー値ペアのマップ。既存の列名をキーとし、対応する出力列名を値としてマッピングします。
Suspect File	テキストファイルの場合: File Path Hadoop プラットフォーム上のサスペクトテキストファイルのパス。レコード区切り文字サスペクトファイル内で使用されるレコード区切り文字。 Field Separator サスペクトファイルで、レコード内の連続する 2 つのフィールドの間に使用される区切り文字。 Text Qualifier 区切り記号付きファイル内のテキスト値を囲むのに使用する文字。 Header Row Fields サスペクトファイルのヘッダーフィールドの配列。 Skip First Row サスペクトファイルレコードの読み取り時に、先頭行をスキップするかどうかを示すフラグ。先頭行がヘッダー行である場合は、これを `true` にする必要があります。注: `FilePath` の適切なコンストラクタを呼び出します。 ORC 形式ファイル: ORC File Path Hadoop プラットフォーム上の入力 ORC 形式ファイルのパス。共通パラメータ: Field Mappings キー値ペアのマップ。既存の列名をキーとし、対応する出力列名を値としてマッピングします。
Output File	テキストファイルの場合: File Path Hadoop プラットフォーム上の出力テキストファイルのパス。 Field Separator 出力ファイルで、レコード内の連続する 2 つのフィールドの間に使用される区切り文字。注: `FilePath` の適切なコンストラクタを呼び出します。 ORC 形式ファイル: ORC File Path Hadoop プラットフォーム上の出力 ORC 形式ファイルのパス。 PARQUET 形式ファイル: Parquet File Path Hadoop プラットフォーム上の出力 PARQUET 形式ファイルのパス。共通パラメータ: Overwrite 出力ファイルと同じ名前のファイルが既に存在する場合に、上書きするかどうかを示すフラグ。 Create Output Header ヘッダーファイルを Hadoop サーバー上に作成するかどうかを示すフラグ。
Job Configurations	ジョブ用の Hadoop 設定 MapReduce ジョブの場合、インスタンスのタイプは MRJobConfig である必要があります。Spark ジョブの場合、インスタンスのタイプは SparkJobConfig である必要があります。
Match Key Settings	マッチングの実行に必要なマッチキーの生成に適用する、列とアルゴリズムの組み合わせ。注: マッチキーを 1 つだけ指定します。注: マッチキー設定は、マッチングを実行する前にマッチキーを生成する場合のみ、設定します。
Job Name	ジョブの名前。
Express Match Column	レコードの Express マッチに使用する列名。
Setting Collection Number Zero to Unique Records	ユニークレコードのコレクション番号を 0 (ゼロ) に設定する場合は、これを `true` にします。
Comparison Option	次の 2 つのオプションのいずれかを選択できます。 Compare the Suspect record to all Candidate records: ユニークレコードを出力に返す必要があるかどうかを指定します。 Compare the Suspect record to the selected Candidate record only: 検索して返す重複レコードの最大数を指定します。
Compress Output	出力を圧縮するかどうかを示すフラグ。出力を圧縮する場合は `true` を設定します。