Hadoop への接続

Read from Hadoop Sequence File、Write to Hadoop Sequence File、Read From File、Write to File、Read From XML、Write to XML、Read from Hive File、Write to Hive File、Read From HL7 File などのステージを Enterprise Designer で使用するには、Hadoop システムに接続します。

重要: Spectrum™ Technology Platform は、Windows プラットフォーム上の Kerberos 認証に対して Hadoop 2.x をサポートしません。

Hadoop システムに接続するには、次の手順を実行します。

次のいずれかのモジュールを使用して [データソース] ページにアクセスします。
Management Console:
http://server:port/managementconsole という URL を使用して Management Console にアクセスします。ここで、server は Spectrum™ Technology Platform サーバーのサーバー名または IP アドレス、port は Spectrum™ Technology Platform が使用する HTTP ポートです。
注: デフォルトの HTTP ポートは 8080 です。

[リソース] > [データソース] に移動します。

Metadata Insights:
http://server:port/metadata-insights という URL を使用して Metadata Insights にアクセスします。ここで、server は Spectrum™ Technology Platform サーバーのサーバー名または IP アドレス、port は Spectrum™ Technology Platform が使用する HTTP ポートです。
注: デフォルトの HTTP ポートは 8080 です。

[接続] に移動します。
[接続を追加] ボタンをクリックします。
[名前] フィールドに、接続の名前を入力します。任意の名前にすることができます。

注: 接続をいったん保存すると、名前の変更は不可能になります。
[タイプ] フィールドで、[HDFS] を選択します。
[ホスト] フィールドに、HDFS クラスタ内の NameNode のホスト名または IP アドレスを入力します。
[ポート] フィールドに、ネットワークポート番号を入力します。
[ユーザ] で、次のいずれかのオプションを選択します。
サーバーユーザ
HDFS クラスタで認証が有効になっている場合は、このオプションを選択します。このオプションでは、Spectrum™ Technology Platform サーバーを実行するユーザ資格情報を使用して HDFS を認証します。

ユーザ名
HDFS クラスタで認証が無効になっている場合は、このオプションを選択します。
この HDFS ファイルサーバー接続に対して Kerberos 認証機能を有効にする場合は、[Kerberos] チェックボックスをオンにします。
[Kerberos] 認証を有効にした場合は、[Keytab ファイルパス] フィールドに Keytab ファイルのパスを入力します。

注: Keytab ファイルが Spectrum™ Technology Platform サーバー上に存在することを確認してください。
[プロトコル] フィールドで、次のいずれかを選択します。
WEBHDFS
HDFS クラスタで HDFS 1.0 以降を実行している場合は、このオプションを選択します。このプロトコルは、読み込みと書き込みの両方の操作をサポートしています。

HFTP
HDFS クラスタで HDFS 1.0 よりも古いバージョンを実行している場合、または組織で WEBHDFS プロトコルが許可されていない場合は、このオプションを選択します。このプロトコルは、読み込み操作のみをサポートしています。

HAR
Hadoop アーカイブファイルにアクセスする場合は、このオプションを選択します。このオプションを選択する場合は、アーカイブファイルへのパスを [パス] フィールドに指定します。このプロトコルは、読み込み操作のみをサポートしています。
[詳細オプション] を展開します。
WEBHDFS プロトコルを選択した場合は、必要に応じて次の詳細オプションを指定できます。
複製係数
各ブロックを複製するデータノードの数を指定します。例えば、デフォルト設定の 3 は、各ブロックをクラスタ内の異なる 3 つのノードに複製します。最大複製係数は 1024 です。

ブロックサイズ
各ブロックのサイズを指定します。HDFS は、ここで指定するサイズのブロックにファイルを分割します。例えば、デフォルトの 64 MB を指定した場合、各ファイルは 64 MB ブロックに分割されます。その後、各ブロックは、[複製係数] フィールドに指定された、クラスタ内のノード数に複製されます。

ファイル権限
Spectrum™ Technology Platform によって HDFS クラスタに書き込まれるファイルに対するアクセスレベルを指定します。次の各オプションに対して、読み取り権限および書き込み権限を指定できます。
注: 実行権限は Spectrum™ Technology Platform に適用されません。
ユーザ
これは前の手順で指定した、[サーバーユーザ] のユーザか、[ユーザ名] フィールドに指定したユーザのいずれかです。

グループ
これは、ユーザがメンバーとして所属する任意のグループを指します。例えば、ユーザが john123 の場合、グループ権限は john123 がメンバーとして所属するグループにすべて適用されます。

その他
これは、他のすべてのユーザと、指定されたユーザがメンバーとして所属しないグループを指します。
以下のファイル権限についての説明を参照し、ステージやアクティビティで接続が使用される際にソートとフィルタリングの機能が正しく動作するよう、Hadoop の [サーバープロパティ] を定義します。プロパティを追加するには、次のいずれかの手順を実行します。
- をクリックし、プロパティとその値をそれぞれ [プロパティ] および [値] フィールドに追加します。
- をクリックし、設定 XML ファイルをアップロードします。この XML ファイルは hdfs-site.xml、yarn-site.xml、または core-site.xml のようになっているはずです。
  注: サーバーに設定ファイルを配置します。
ファイル権限とパラメータ - Hadoop 1.x
このセクションの説明は、次のステージおよびアクティビティに適用されます。
- ステージ - Read from Sequence File
- アクティビティ - Run Hadoop Pig
fs.default.name

Hadoop が実行するノードとポートを指定します。例えば、hdfs://152.144.226.224:9000 とします。

mapred.job.tracker

MapReduce ジョブトラッカーを実行するホスト名または IP アドレスと、ポートを指定します。ホスト名をローカルとして入力した場合は、ジョブは単一のマップとして実行され、タスクが少なくなります。例えば、152.144.226.224:9001 とします。

dfs.namenode.name.dir

DFS 名前ノードが名前テーブルを格納する、ローカルファイルシステム上の場所を指定します。ディレクトリのカンマ区切りリストである場合、名前テーブルは冗長性のためにすべてのディレクトリに複製されます。例えば、file:/home/hduser/Data/namenode とします。

hadoop.tmp.dir

他の一時ディレクトリのベースディレクトリを指定します。例えば、/home/hduser/Data/tmp とします。
ファイル権限とパラメータ - Hadoop 2.x
このセクションの説明は、次のステージおよびアクティビティに適用されます。
- ステージ - Read from Sequence File
- アクティビティ - Run Hadoop Pig
fs.defaultFS

Hadoop が実行するノードとポートを指定します。例えば、hdfs://152.144.226.224:9000 とします。

注意: Spectrum バージョン 11.0 以前では、パラメータ名 fs.defaultfs を使用する必要があります。大文字と小文字の違いに注意してください。バージョン 11 SP1 以降では、fs.defaultfs と fs.defaultFS のどちらの名前も有効です。11.0 SP1 以降のリリースでは、パラメータ名 fs.defaultFS を使用することをお勧めします。

yarn.resourcemanager.resource-tracker.address

Resource Manager のホスト名または IP アドレスを指定します。例えば、152.144.226.224:8025 とします。

yarn.resourcemanager.scheduler.address

Scheduler Interface のアドレスを指定します。例えば、152.144.226.224:8030 とします。

yarn.resourcemanager.address

Resource Manager に含まれる Applications Manager インターフェイスのアドレスを指定します。例えば、152.144.226.224:8041 とします。

mapreduce.jobhistory.address

MapReduce Job History Server が実行するホスト名または IP アドレスと、ポートを指定します。例えば、152.144.226.224:10020 とします。

mapreduce.application.classpath

Map Reduce アプリケーション用の CLASSPATH を指定します。この CLASSPATH は、Map Reduce アプリケーションに関連するクラスが存在する場所を表します。エントリをカンマで区切って指定する必要があります。

例:

$HADOOP_CONF_DIR, $HADOOP_COMMON_HOME/share/hadoop/common/*, $HADOOP_COMMON_HOME/share/hadoop/common/lib/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*, $HADOOP_YARN_HOME/share/hadoop/yarn/*, $HADOOP_YARN_HOME/share/hadoop/yarn/lib/*

mapreduce.app-submission.cross-platform

Spectrum サーバーが Windows コンピュータ上で実行しており、そこに Cloudera をインストールする場合に生じる、さまざまなプラットフォームの問題を処理します。Spectrum サーバーと Cloudera が異なるオペレーティングシステム上で実行している場合は、このパラメータの値として true を入力します。それ以外の場合は、false にします。
注: Cloudera は Windows クライアントをサポートしません。このパラメータを設定することは回避策であり、結果として生じるすべてのプラットフォームの問題を解決するものではありません。
ファイル権限とパラメータ - Kerberos
このセクションの説明は、次のステージおよびアクティビティに適用されます。
- ステージ - Read from Sequence File
- アクティビティ - Run Hadoop Pig
[Kerberos] チェックボックスをオンにした場合は、以下の Kerberos 設定プロパティを追加します。

hadoop.security.authentication

使用される認証セキュリティの種類。kerberos という値を入力します。

yarn.resourcemanager.principal

Hadoop YARN リソースネゴシエータ用のリソースマネージャに対して使用される Kerberos プリンシパル。例えば、yarn/_HOST@HADOOP.COM。

dfs.namenode.kerberos.principal

Hadoop 分散ファイルシステム (HDFS) の NameNode に対して使用される Kerberos プリンシパル。例えば、hdfs/_HOST@HADOOP.COM。

dfs.datanode.kerberos.principal

Hadoop 分散ファイルシステム (HDFS) のデータノードに対して使用される Kerberos プリンシパル。例えば、hdfs/_HOST@HADOOP.COM。
ファイル権限とパラメータ - Hadoop 1.x
このセクションの説明は、次のステージに適用されます。
- ステージ Read from File
- ステージ Write to File
- ステージ Read from Hive ORC File
- ステージ Write to Hive ORC File
fs.default.name

Hadoop が実行するノードとポートを指定します。例えば、hdfs://152.144.226.224:9000 とします。
ファイル権限とパラメータ - Hadoop 2.x
このセクションの説明は、次のステージに適用されます。
- ステージ Read or write from File
- ステージ Read or write from Hive ORC File
fs.defaultFS

Hadoop が実行するノードとポートを指定します。例えば、hdfs://152.144.226.224:9000 とします。

注意: Spectrum バージョン 11.0 以前では、パラメータ名 fs.defaultfs を使用する必要があります。大文字と小文字の違いに注意してください。バージョン 11 SP1 以降では、fs.defaultfs と fs.defaultFS のどちらの名前も有効です。11.0 SP1 以降のリリースでは、パラメータ名 fs.defaultFS を使用することをお勧めします。
接続をテストするには、[テスト] をクリックします。
[保存] をクリックします。

HDFS クラスタへの接続を定義した後は、Enterprise Designer のソースステージとシンクステージ (Read from File、Write to File など) でその接続を使用できるようになります。ソースまたはシンクステージでファイルを定義するときに [リモートマシン] をクリックすると、HDFS クラスタを選択できます。