基本オプションの設定

  1. [ツリーの数] に、お使いのモデルでのツリー数の最大値を入力します。デフォルトは 50 です。
  2. [最大深度] に、モデルに含めるレベル数の最大値を入力します。デフォルトは 5 です。
  3. [最小行数] に、モデルに含める行数 (またはレコード数) の最小値を入力します。デフォルト値は 10 です。
  4. [ビンの数 (数値)] に、ヒストグラムを構築したうえで最良のポイントで分割するビンの数を入力します。デフォルト値は 20 です。
  5. [ビンの数 (最上位レベル)] に、ルート レベルで必要なビンの数の最小値を入力します。デフォルトは 1024 です。
  6. [ビンの数 (カテゴリ別)] に、ヒストグラムを構築したうえで最良のポイントで分割するビンの数の最大値を入力します。デフォルトは 1024 です。
  7. [サンプル レート] をオンにし、各ツリーでサンプルとして使用される行の比率を入力します。0.0 ~ 1.0 の値を使用できます。
  8. [各ツリーの列サンプル レート] をオンにし、各ツリーの列に対するサンプリング率を入力します。0.0 ~ 1.0 の値を使用できます。
  9. [各レベルの列数] では、各レベルでランダムに選択する列の数を指定します。このオプションがオフになっている場合、デフォルト値の -1 が使用され、変数の数は、分類の場合は列数の平方根、回帰の場合は p/3 (p は予測因子の数) となります。このオプションをオンにすると、1 以上の値を指定できます。予測因子の数より大きい値は指定できません。
  10. モデル予測 (スコア) を表す列を入力データに追加するには、[入力データを記録] をオンにします。
  11. 入力データがトレーニングおよびテストのデータ サンプルにランダムに分割される場合は、1 ~ 100 の値を [トレーニング データの比率] に指定します。
  12. ステップ 5 で指定した値を 100 から引いた値を [テスト データの比率] に入力します。
  13. [テスト データ用シード] により、データフローを何度実行してもデータが必ず同じ方法でテスト データとトレーニング データに分割されるようになります。フローを実行するたびにランダムな分割を行う場合は、このフィールドをオフにします。
  14. [OK] をクリックして、モデルと設定を保存するか、次のタブで操作を続行します。