Joiner MapReduce ジョブの使用
-
静的メソッド
getInstance()
を使用して、DataIntegrationFactory
のインスタンスを作成します。 -
JoinDetail
インスタンスでジョブの入力と出力の詳細を指定し、ProcessType
を MRProcessType に指定します。JoinDetail
インスタンスを作成および設定するには、次の手順を実行します。ProcessType
を MRProcessType に指定し、デフォルトの設定を使用してJoinDetail
のインスタンスを作成します。FilePath
の別々のインスタンスを作成し、インスタンスごとに、RecordSeparator
(列挙 RecordSeparator を使用)、fieldSeperator
、textQualifier
、fileHeader
(最初の行をスキップするかどうかを指定) の各入力ファイルの詳細を設定します。注:- テキスト入力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な入力ファイル情報を指定して
FilePath
のインスタンスを作成します。 - ORC 入力ファイルの場合、ORC 入力ファイルのパスを引数に指定して
OrcFilePath
のインスタンスを作成します。 - PARQUET 入力ファイルの場合、PARQUET 入力ファイルのパスを引数に指定して ParquetFilePath のインスタンスを作成します。
- テキスト入力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な入力ファイル情報を指定して
- 上の手順で作成した
JoinDetail
インスタンスで、以下の詳細を設定します。InputPaths
: 上で作成して設定したFilePath
のインスタンスを渡します。LeftInput
: 結合操作の左側の入力を指定します。JobName
: ジョブの名前。JoinType
: 列挙 JoinDetail.JoinType を使用して結合タイプを定義します。JoinColumns
: 結合される入力列を指定します。値はカンマで区切って指定する必要があります。OutputPath
:setOutputPath
メソッドを使用してジョブの出力パスを設定し、ファイルを上書きするかどうか、およびヘッダーを作成するかどうかを指定します。
-
MapReduce
ジョブを作成するには、先ほど作成したDataIntegrationFactory
のインスタンスを使用して、そのメソッドcreateJob()
を呼び出します。ここで、JoinDetail
インスタンスを引数として渡します。createJob()
メソッドはジョブを作成し、List
インスタンスのControlledJob
を返します。 -
JobControl
のインスタンスを使用して、作成したジョブを実行します。