Joiner MapReduce ジョブの使用

  1. 静的メソッド getInstance() を使用して、DataIntegrationFactory のインスタンスを作成します。
  2. JoinDetail インスタンスでジョブの入力と出力の詳細を指定し、ProcessTypeMRProcessType に指定します。JoinDetail インスタンスを作成および設定するには、次の手順を実行します。
    1. ProcessTypeMRProcessType に指定し、デフォルトの設定を使用して JoinDetail のインスタンスを作成します。
    2. FilePath の別々のインスタンスを作成し、インスタンスごとに、RecordSeparator (列挙 RecordSeparator を使用)、fieldSeperatortextQualifierfileHeader (最初の行をスキップするかどうかを指定) の各入力ファイルの詳細を設定します。
      注:
      • テキスト入力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な入力ファイル情報を指定してFilePath のインスタンスを作成します。
      • ORC 入力ファイルの場合、ORC 入力ファイルのパスを引数に指定して OrcFilePath のインスタンスを作成します。
      • PARQUET 入力ファイルの場合、PARQUET 入力ファイルのパスを引数に指定して ParquetFilePath のインスタンスを作成します。
    3. 上の手順で作成した JoinDetail インスタンスで、以下の詳細を設定します。
      • InputPaths: 上で作成して設定した FilePath のインスタンスを渡します。
      • LeftInput: 結合操作の左側の入力を指定します。
      • JobName: ジョブの名前。
      • JoinType: 列挙 JoinDetail.JoinType を使用して結合タイプを定義します。
      • JoinColumns: 結合される入力列を指定します。値はカンマで区切って指定する必要があります。
      • OutputPath: setOutputPath メソッドを使用してジョブの出力パスを設定し、ファイルを上書きするかどうか、およびヘッダーを作成するかどうかを指定します。
  3. MapReduce ジョブを作成するには、先ほど作成した DataIntegrationFactory のインスタンスを使用して、そのメソッド createJob() を呼び出します。ここで、JoinDetail インスタンスを引数として渡します。
    createJob() メソッドはジョブを作成し、List インスタンスの ControlledJob を返します。
  4. JobControl のインスタンスを使用して、作成したジョブを実行します。