Big Data Quality SDK

Acushare の自動インストール

クラスタの各ノードに Acushare をインストールするには、これまで Validate Address ジョブを実行する必要がありましたが、このリリースでこの操作が自動化されました。現在は、スクリプトファイル sdkrts.binを各ノードで実行するだけで、自動的にこのサービスがそのノードにインストールされ、起動されます。

Validate Address に関する CASS レポート

Big Data Quality SDK を使用して、CASS Certified™ モードで Validate Address ジョブを作成して実行できるようになりました。また、次の CASS レポートを生成できます。

CASS レポート 3553
CASS 詳細レポート

Validate Address サマリレポートというサマリレポートも生成できます。

設定ファイルを使用したジョブの実行

モジュールの JAR ファイルを使用する Big Data Quality ジョブを、コンソールで実行できるようになりました。hadoopコマンドまたは spark-submit コマンドを使用して、設定ファイルを引数として渡します。

設定ファイルは XML 形式である必要があります。サンプル設定ファイルが以下の場所にあります。

BigDataQualityBundle\samples\configuration

設定ファイルには、入力ファイルプロパティ、MapReduce および Spark の設定プロパティ、出力ディレクトリ設定、ジョブの一般プロパティが含まれています。

新しい入力ファイルの設定

テキスト修飾子

Big Data Quality SDK では、MapReduce および Spark のジョブの入力設定にテキスト修飾子を使えるようになりました。テキスト修飾子は、入力におけるテキスト値を識別します。

フィールドマッピング

JobPathクラスの新しいフィールドを使って、ソース列名と出力列名のマッピングが指定できるようになりました。このフィールドにキー/値ペアの Mapを設定することにより、ソース列名を対応する出力列名にマッピングします。

出力ファイルのフィールド区切り文字

ジョブの出力ファイルの詳細を定義するときに、フィールド区切り文字を指定できるようになりました。

ORC ファイル形式のサポート

ORC ファイル形式が、Big Data Quality SDK で提供されるジョブの入力と出力に使用できるようになりました。入力ファイル、出力ファイル、サスペクトファイル、および候補ファイルに、テキストファイルまたは ORC ファイルを使用できます。

注: Interflow Match を使用する場合、サスペクトファイルと候補ファイルは同じファイル形式でなければなりません。両方ともテキストファイルであるか、または ORC 形式ファイルである必要があります。