Big Data Quality SDK
Acushare の自動インストール
クラスタの各ノードに Acushare をインストールするには、これまで Validate Address ジョブを実行する必要がありましたが、このリリースでこの操作が自動化されました。現在は、スクリプト ファイル sdkrts.binを各ノードで実行するだけで、自動的にこのサービスがそのノードにインストールされ、起動されます。
Validate Address に関する CASS レポート
Big Data Quality SDK を使用して、CASS Certified™ モードで Validate Address ジョブを作成して実行できるようになりました。また、次の CASS レポートを生成できます。
- CASS レポート 3553
- CASS 詳細レポート
Validate Address サマリ レポートというサマリ レポートも生成できます。
設定ファイルを使用したジョブの実行
モジュールの JAR ファイルを使用する Big Data Quality ジョブを、コンソールで実行できるようになりました。hadoop
コマンドまたは spark-submit
コマンドを使用して、設定ファイルを引数として渡します。
設定ファイルは XML 形式である必要があります。サンプル設定ファイルが以下の場所にあります。
BigDataQualityBundle\samples\configuration
設定ファイルには、入力ファイル プロパティ、MapReduce および Spark の設定プロパティ、出力ディレクトリ設定、ジョブの一般プロパティが含まれています。
新しい入力ファイルの設定
テキスト修飾子
Big Data Quality SDK では、MapReduce および Spark のジョブの入力設定にテキスト修飾子を使えるようになりました。テキスト修飾子は、入力におけるテキスト値を識別します。
フィールド マッピング
JobPathクラスの新しいフィールドを使って、ソース列名と出力列名のマッピングが指定できるようになりました。このフィールドにキー/値ペアの Map
を設定することにより、ソース列名を対応する出力列名にマッピングします。
出力ファイルのフィールド区切り文字
ジョブの出力ファイルの詳細を定義するときに、フィールド区切り文字を指定できるようになりました。
ORC ファイル形式のサポート
ORC ファイル形式が、Big Data Quality SDK で提供されるジョブの入力と出力に使用できるようになりました。入力ファイル、出力ファイル、サスペクト ファイル、および候補ファイルに、テキスト ファイルまたは ORC ファイルを使用できます。