Open Parser MapReduce ジョブの使用

  1. DataNormalizationFactory のインスタンスを、その静的メソッド getInstance() を使用して作成します。
  2. Open Parser ジョブの入力と出力の詳細を指定します。以下の手順に従って、OpenParserDetail を指定する ProcessType のインスタンスを作成することによって、これを行います。このインスタンスは、MRProcessType タイプを使用する必要があります。
    1. OpenParserConfiguration のインスタンスを作成することによって、パーシング ルールを設定します。このインスタンスに、グラマー ファイル パスを設定します。
    2. ReferenceDataPath のインスタンスを作成することによって、リファレンス データ パスと場所のタイプの詳細を設定します。列挙 ReferenceDataPathLocation を参照してください。
    3. OpenParserDetail のインスタンスを作成します。JobConfig タイプのインスタンスと、上で作成した OpenParserConfigurationReferenceDataPath のインスタンスを、コンストラクタの引数として渡します。
      JobConfig パラメータは、MRJobConfig タイプのインスタンスである必要があります。
    4. 作成した OpenParserDetail のインスタンス内で、OpenParserDetail インスタンスの inputPath フィールドを使用して、入力ファイルの詳細を設定します。
      • テキスト入力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な入力ファイル情報を指定してFilePath のインスタンスを作成します。
      • ORC 入力ファイルの場合、ORC 入力ファイルのパスを引数に指定して OrcFilePath のインスタンスを作成します。
      • PARQUET 入力ファイルの場合、PARQUET 入力ファイルのパスを引数に指定して ParquetFilePath のインスタンスを作成します。
    5. OpenParserDetail インスタンスの outputPath フィールドを使用して、出力ファイルの詳細を設定します。
      • テキスト出力ファイルの場合は、適切なコンストラクタを呼び出して、関連する詳細な出力ファイル情報を指定してFilePath のインスタンスを作成します。
      • ORC 出力ファイルの場合、ORC 出力ファイルのパスを引数に指定して OrcFilePath のインスタンスを作成します。
      • PARQUET 出力ファイルの場合、PARQUET 出力ファイルのパスを引数に指定して ParquetFilePath のインスタンスを作成します。
    6. jobName インスタンスの OpenParserDetail フィールドを使用して、ジョブの名前を設定します。
  3. MapReduce ジョブを作成するには、先ほど作成した DataNormalizationFactory のインスタンスを使用してそのメソッド createJob() を呼び出します。ここで、上の OpenParserDetail のインスタンスを引数として渡します。
    createJob() メソッドは、List のインスタンスの ControlledJob を返します。
  4. JobControl のインスタンスを使用して、作成したジョブを実行します。