Hadoop への接続

Read from Hadoop Sequence FileWrite to Hadoop Sequence FileRead From FileWrite to FileRead From XMLWrite to XMLRead from Hive FileWrite to Hive FileRead From HL7 File などのステージを Enterprise Designer で使用するには、Hadoop システムに接続します。
重要: Spectrum™ Technology Platform は、Windows プラットフォーム上の Kerberos 認証に対して Hadoop 2.x をサポートしません。

Hadoop システムに接続するには、次の手順を実行します。

  1. 次のいずれかのモジュールを使用して [データ ソース] ページにアクセスします。
    Management Console:
    http://server:port/managementconsole という URL を使用して Management Console にアクセスします。ここで、serverSpectrum™ Technology Platform サーバーのサーバー名または IP アドレス、portSpectrum™ Technology Platform が使用する HTTP ポートです。
    注: デフォルトの HTTP ポートは 8080 です。
    [リソース] > [データ ソース] に移動します。
    Metadata Insights:
    http://server:port/metadata-insights という URL を使用して Metadata Insights にアクセスします。ここで、serverSpectrum™ Technology Platform サーバーのサーバー名または IP アドレス、portSpectrum™ Technology Platform が使用する HTTP ポートです。
    注: デフォルトの HTTP ポートは 8080 です。
    [接続] に移動します。
  2. [接続を追加] ボタン をクリックします。
  3. [名前] フィールドに、接続の名前を入力します。任意の名前にすることができます。
    注: 接続をいったん保存すると、名前の変更は不可能になります。
  4. [タイプ] フィールドで、[HDFS] を選択します。
  5. [ホスト] フィールドに、HDFS クラスタ内の NameNode のホスト名または IP アドレスを入力します。
  6. [ポート] フィールドに、ネットワーク ポート番号を入力します。
  7. [ユーザ] で、次のいずれかのオプションを選択します。
    サーバー ユーザ
    HDFS クラスタで認証が有効になっている場合は、このオプションを選択します。このオプションでは、Spectrum™ Technology Platform サーバーを実行するユーザ資格情報を使用して HDFS を認証します。
    ユーザ名
    HDFS クラスタで認証が無効になっている場合は、このオプションを選択します。
  8. この HDFS ファイル サーバー接続に対して Kerberos 認証機能を有効にする場合は、[Kerberos] チェックボックスをオンにします。
  9. [Kerberos] 認証を有効にした場合は、[Keytab ファイル パス] フィールドに Keytab ファイルのパスを入力します。
    注: Keytab ファイルが Spectrum™ Technology Platform サーバー上に存在することを確認してください。
  10. [プロトコル] フィールドで、次のいずれかを選択します。
    WEBHDFS
    HDFS クラスタで HDFS 1.0 以降を実行している場合は、このオプションを選択します。このプロトコルは、読み込みと書き込みの両方の操作をサポートしています。
    HFTP
    HDFS クラスタで HDFS 1.0 よりも古いバージョンを実行している場合、または組織で WEBHDFS プロトコルが許可されていない場合は、このオプションを選択します。このプロトコルは、読み込み操作のみをサポートしています。
    HAR
    Hadoop アーカイブ ファイルにアクセスする場合は、このオプションを選択します。このオプションを選択する場合は、アーカイブ ファイルへのパスを [パス] フィールドに指定します。このプロトコルは、読み込み操作のみをサポートしています。
  11. [詳細オプション] を展開します。
  12. WEBHDFS プロトコルを選択した場合は、必要に応じて次の詳細オプションを指定できます。
    複製係数
    各ブロックを複製するデータ ノードの数を指定します。例えば、デフォルト設定の 3 は、各ブロックをクラスタ内の異なる 3 つのノードに複製します。最大複製係数は 1024 です。
    ブロック サイズ
    各ブロックのサイズを指定します。HDFS は、ここで指定するサイズのブロックにファイルを分割します。例えば、デフォルトの 64 MB を指定した場合、各ファイルは 64 MB ブロックに分割されます。その後、各ブロックは、[複製係数] フィールドに指定された、クラスタ内のノード数に複製されます。
    ファイル権限
    Spectrum™ Technology Platform によって HDFS クラスタに書き込まれるファイルに対するアクセス レベルを指定します。次の各オプションに対して、読み取り権限および書き込み権限を指定できます。
    注: 実行権限は Spectrum™ Technology Platform に適用されません。
    ユーザ
    これは前の手順で指定した、[サーバー ユーザ] のユーザか、[ユーザ名] フィールドに指定したユーザのいずれかです。
    グループ
    これは、ユーザがメンバーとして所属する任意のグループを指します。例えば、ユーザが john123 の場合、グループ権限は john123 がメンバーとして所属するグループにすべて適用されます。
    その他
    これは、他のすべてのユーザと、指定されたユーザがメンバーとして所属しないグループを指します。
  13. 以下のファイル権限についての説明を参照し、ステージやアクティビティで接続が使用される際にソートとフィルタリングの機能が正しく動作するよう、Hadoop の [サーバー プロパティ] を定義します。プロパティを追加するには、次のいずれかの手順を実行します。
    • をクリックし、プロパティとその値をそれぞれ [プロパティ] および [値] フィールドに追加します。
    • をクリックし、設定 XML ファイルをアップロードします。この XML ファイルは hdfs-site.xmlyarn-site.xml、または core-site.xml のようになっているはずです。
      注: サーバーに設定ファイルを配置します。
    ファイル権限とパラメータ - Hadoop 1.x
    このセクションの説明は、次のステージおよびアクティビティに適用されます。
    • ステージ - Read from Sequence File
    • アクティビティ - Run Hadoop Pig
    fs.default.name
    Hadoop が実行するノードとポートを指定します。例えば、hdfs://152.144.226.224:9000 とします。
    mapred.job.tracker
    MapReduce ジョブ トラッカーを実行するホスト名または IP アドレスと、ポートを指定します。ホスト名をローカルとして入力した場合は、ジョブは単一のマップとして実行され、タスクが少なくなります。例えば、152.144.226.224:9001 とします。
    dfs.namenode.name.dir
    DFS 名前ノードが名前テーブルを格納する、ローカル ファイルシステム上の場所を指定します。ディレクトリのカンマ区切りリストである場合、名前テーブルは冗長性のためにすべてのディレクトリに複製されます。例えば、file:/home/hduser/Data/namenode とします。
    hadoop.tmp.dir
    他の一時ディレクトリのベース ディレクトリを指定します。例えば、/home/hduser/Data/tmp とします。
    ファイル権限とパラメータ - Hadoop 2.x
    このセクションの説明は、次のステージおよびアクティビティに適用されます。
    • ステージ - Read from Sequence File
    • アクティビティ - Run Hadoop Pig
    fs.defaultFS
    Hadoop が実行するノードとポートを指定します。例えば、hdfs://152.144.226.224:9000 とします。
    注意: Spectrum バージョン 11.0 以前では、パラメータ名 fs.defaultfs を使用する必要があります。大文字と小文字の違いに注意してください。バージョン 11 SP1 以降では、fs.defaultfsfs.defaultFS のどちらの名前も有効です。11.0 SP1 以降のリリースでは、パラメータ名 fs.defaultFS を使用することをお勧めします。
    yarn.resourcemanager.resource-tracker.address
    Resource Manager のホスト名または IP アドレスを指定します。例えば、152.144.226.224:8025 とします。
    yarn.resourcemanager.scheduler.address
    Scheduler Interface のアドレスを指定します。例えば、152.144.226.224:8030 とします。
    yarn.resourcemanager.address
    Resource Manager に含まれる Applications Manager インターフェイスのアドレスを指定します。例えば、152.144.226.224:8041 とします。
    mapreduce.jobhistory.address
    MapReduce Job History Server が実行するホスト名または IP アドレスと、ポートを指定します。例えば、152.144.226.224:10020 とします。
    mapreduce.application.classpath
    Map Reduce アプリケーション用の CLASSPATH を指定します。この CLASSPATH は、Map Reduce アプリケーションに関連するクラスが存在する場所を表します。エントリをカンマで区切って指定する必要があります。
    例:
    $HADOOP_CONF_DIR, $HADOOP_COMMON_HOME/share/hadoop/common/*, $HADOOP_COMMON_HOME/share/hadoop/common/lib/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*, $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*, $HADOOP_YARN_HOME/share/hadoop/yarn/*, $HADOOP_YARN_HOME/share/hadoop/yarn/lib/*
    mapreduce.app-submission.cross-platform
    Spectrum サーバーが Windows コンピュータ上で実行しており、そこに Cloudera をインストールする場合に生じる、さまざまなプラットフォームの問題を処理します。Spectrum サーバーと Cloudera が異なるオペレーティング システム上で実行している場合は、このパラメータの値として true を入力します。それ以外の場合は、false にします。
    注: Cloudera は Windows クライアントをサポートしません。このパラメータを設定することは回避策であり、結果として生じるすべてのプラットフォームの問題を解決するものではありません。
    ファイル権限とパラメータ - Kerberos
    このセクションの説明は、次のステージおよびアクティビティに適用されます。
    • ステージ - Read from Sequence File
    • アクティビティ - Run Hadoop Pig
    [Kerberos] チェック ボックスをオンにした場合は、以下の Kerberos 設定プロパティを追加します。
    hadoop.security.authentication
    使用される認証セキュリティの種類。kerberos という値を入力します。
    yarn.resourcemanager.principal
    Hadoop YARN リソース ネゴシエータ用のリソース マネージャに対して使用される Kerberos プリンシパル。例えば、yarn/_HOST@HADOOP.COM
    dfs.namenode.kerberos.principal
    Hadoop 分散ファイル システム (HDFS) の NameNode に対して使用される Kerberos プリンシパル。例えば、hdfs/_HOST@HADOOP.COM
    dfs.datanode.kerberos.principal
    Hadoop 分散ファイル システム (HDFS) のデータ ノードに対して使用される Kerberos プリンシパル。例えば、hdfs/_HOST@HADOOP.COM
    ファイル権限とパラメータ - Hadoop 1.x
    このセクションの説明は、次のステージに適用されます。
    • ステージ Read from File
    • ステージ Write to File
    • ステージ Read from Hive ORC File
    • ステージ Write to Hive ORC File
    fs.default.name
    Hadoop が実行するノードとポートを指定します。例えば、hdfs://152.144.226.224:9000 とします。
    ファイル権限とパラメータ - Hadoop 2.x
    このセクションの説明は、次のステージに適用されます。
    • ステージ Read or write from File
    • ステージ Read or write from Hive ORC File
    fs.defaultFS
    Hadoop が実行するノードとポートを指定します。例えば、hdfs://152.144.226.224:9000 とします。
    注意: Spectrum バージョン 11.0 以前では、パラメータ名 fs.defaultfs を使用する必要があります。大文字と小文字の違いに注意してください。バージョン 11 SP1 以降では、fs.defaultfsfs.defaultFS のどちらの名前も有効です。11.0 SP1 以降のリリースでは、パラメータ名 fs.defaultFS を使用することをお勧めします。
  14. 接続をテストするには、[テスト] をクリックします。
  15. [保存] をクリックします。

HDFS クラスタへの接続を定義した後は、Enterprise Designer のソース ステージとシンク ステージ (Read from File、Write to File など) でその接続を使用できるようになります。ソースまたはシンク ステージでファイルを定義するときに [リモート マシン] をクリックすると、HDFS クラスタを選択できます。