高度なオプションの設定

  1. [定数フィールドを無視] をオンにすると、各レコードで値が同じフィールドがスキップされます。
  2. [クラスのバランスをとる] をオンにすると、クラス分布のバランスを取るために大多数のクラスでアンダーサンプリングが行われるか、少数のクラスでオーバーサンプリングが行われます。
  3. [ヒストグラム タイプ] を選択します。
    Auto
    バケットが最小値から最大値まで (最大値 - 最小値)/N の刻み幅でビニングされます。このオプションで、最適な分割ポイントを見つけるために使用するヒストグラムのタイプを指定します。
    QuantilesGlobal

    各バケットに含める個体数を均等にします。個々の数値列 (二値以外) の nbins 個の分位を計算した後、2 つの分位に挟まれた各バケットに含める内容を均等に (残余はランダムに) 取捨選択して合計 nbins_top_level 個のビンを生成します。

    Random

    最小値から最大値までの N-1 個のポイントをサンプリングし、それらのポイントをソートしたリストから最適な分割ポイントを見つけます。

    RoundRobin

    すべてのヒストグラム タイプを (ツリーごとに 1 つずつ) 順に繰り返し使用します。

    UniformAdaptive

    個々のフィーチャーをビニングして刻み幅 (個体数ではない) が均等のバケットを生成します。これは最速の方法ですが、分布に大きな偏りがあると分割が正確でなくなる可能性があります。

  4. [カテゴリ別エンコーディング] を選択します。
    Auto

    自動的に 列挙型 エンコーディングを実行します。

    Binary
    カテゴリを整数に変換してから 2 進数に変換し、その各桁を別々の列に割り当てます。次元数を減らしてデータをエンコードします (距離に歪みが生じます)。
    注: カテゴリ別のフィーチャーの列の数は 32 以下でなければなりません。
    Eigen

    カテゴリ別のフィーチャーの k 個の列についてのみ、ワンホット (one-hot) エンコーディング マトリックスを k 次元固有空間に投影し続けます。

    列挙

    すべてのヒストグラム タイプを (ツリーごとに 1 つずつ) 順に繰り返し使用します。

    OneHotExplicit

    カテゴリごとに 1 つの列を生成し、列の各セルの値 "1" または "0" でその列のカテゴリが行に含まれているかどうかを表します。

  5. [アルゴリズムと N フォールドのシード] をオンにしてシード数を入力すると、データフローを何度実行しても、データが必ず同じ方法でテスト データとトレーニング データに分割されます。フローを実行するたびにランダムな分割を行う場合は、このフィールドをオフにします。
  6. 相互検証を実行する場合は [N フォールド] をオンにし、フォールドの数を入力します。
  7. 相互検証を実行する場合は、[フォールド割り当て] をオンにしてドロップダウン リストから選択します。このフィールドは、[N フォールド] に値が入力済みで、[フォールド フィールド] が指定されていない場合にのみ適用可能です。
    Auto

    オプションの自動選択をアルゴリズムに任せます。現在、[ランダム] が選択されます。

    Modulo

    データセットをフォールドに等分し、シードを基準としません。

    Random

    データを n フォールドのサブセットにランダムに分割します。大きなデータセットに最適です。

    Stratified

    分類問題の応答変数に基づいて、フォールドを層化します。データセットをトレーニング データとテスト データに分割する際に、観測値を複数のクラスからすべてのセットに均等に分散します。これは、クラスの数が多く、データセットが比較的小さい場合に便利です。

  8. 相互検証を実行する場合は、[フォールド フィールド] をオンにして、相互検証フォールド インデックス割り当てを含むフィールドをドロップダウン リストから選択します。
    このフィールドは、[N フォールド][フォールド割り当て] に値が入力されていない場合のみ適用可能です。
  9. [停止の基準回数] をオンにすると、指定した回数のトレーニングで Stopping_metric オプションの改善が見られないとき、トレーニングの停止前に失敗したトレーニングの回数が入力されます。この機能を無効にするには、0 を指定します。この指標は Validation データに基づいて計算されます (提供されている場合)。そうでなければ、トレーニング データが使われます。
  10. [停止指標] を選択して、新しいツリーの生成を終了するタイミングを決定します。
    AUC
    ROC 曲線下面積。
    注: 二項モデルにのみ適用できます。
    Auto

    デフォルトは deviance です。

    Lifttopgroup

    上位 1%。

    Logloss

    対数損失

    Meanperclasserror

    平均誤分類率。

    Misclassification

    (1 - (正しい予測数/合計予測数)) * 100 の値。

    MSE

    平均 2 乗誤差。予測変数の分散とバイアスを包含する誤差です。

    RMSE

    2 乗平均平方根誤差。モデルや評価関数によって予測された値 (サンプルや母集団の値) と実際に観測した値との差異を表します。MSE の平方根でもあります。

  11. [停止の基準許容値] をオンにし、指標に基づく停止の相対許容誤差を指定する値を入力すると、改善がこの値未満の場合にトレーニングが終了します。このフィールドは、[停止の基準回数] をオンにしている場合にのみ有効になります。
  12. [最小分割改善] をオンにし、2 乗誤差が低減したときに分割が行われるように最小の相対的な改善を指定する値を入力します。このオプションは、適切に実行すれば、過剰適合を減らす効果があります。最適な値は 1e-10...1e-3 の範囲でしょう。このフィールドは、[停止の基準回数] をオンにしている場合にのみ有効になります。
  13. [OK] をクリックして、モデルと設定を保存するか、次のタブで操作を続行します。