入力パラメータ

パラメータ 説明
Open Name Parser Configuration name データ フィールドにある個人名、企業名、またはその他の名称を構成要素に分解します。
リファレンス データ パス リファレンス データ パスの詳細を指定します。
Job Configurations ジョブ用の Hadoop 設定

MapReduce ジョブの場合、インスタンスのタイプは MRJobConfig である必要があります。Spark ジョブの場合、インスタンスのタイプは SparkJobConfig である必要があります。

Input File テキスト ファイルの場合:
File Path
Hadoop プラットフォーム上の入力テキスト ファイルのパス。
レコード区切り文字
入力ファイル内で使用されるレコード区切り文字。
Field Separator
入力ファイルで、レコード内の連続する 2 つのフィールドの間に使用される区切り文字。
Text Qualifier
区切り記号付きファイル内のテキスト値を囲むのに使用する文字。
Header Row Fields
入力ファイルのヘッダー フィールドの配列。
Skip First Row
入力ファイル レコードの読み取り時に、先頭行をスキップするかどうかを示すフラグ。

先頭行がヘッダー行である場合は、これを true にする必要があります。

注: FilePath の適切なコンストラクタを呼び出します。
ORC 形式ファイル:
ORC File Path
Hadoop プラットフォーム上の入力 ORC 形式ファイルのパス。
PARQUET 形式ファイル:
Parquet File Path
Hadoop プラットフォーム上の入力 PARQUET 形式ファイルのパス。
共通パラメータ:
Field Mappings
キー値ペアのマップ。既存の列名をキーとし、対応する出力列名を値としてマッピングします。
Output File テキスト ファイルの場合:
File Path
Hadoop プラットフォーム上の出力テキスト ファイルのパス。
Field Separator
出力ファイルで、レコード内の連続する 2 つのフィールドの間に使用される区切り文字。
注: FilePath の適切なコンストラクタを呼び出します。
ORC 形式ファイル:
ORC File Path
Hadoop プラットフォーム上の出力 ORC 形式ファイルのパス。
PARQUET 形式ファイル:
Parquet File Path
Hadoop プラットフォーム上の出力 PARQUET 形式ファイルのパス。
共通パラメータ:
Overwrite
出力ファイルと同じ名前のファイルが既に存在する場合に、上書きするかどうかを示すフラグ。
Create Output Header
ヘッダー ファイルを Hadoop サーバー上に作成するかどうかを示すフラグ。
Job Name ジョブの名前。