基本オプションの設定

  1. 数値列を標準化し、平均が 0 で偏差が 1 になるようにするには、[標準化] をオンのままにします。
    標準化を使わない場合、実際の寄与の大きさではなく尺度の違いから、他の属性と比べて偏差が大きくなる変数によって左右される要素が結果に含まれる場合があります。
  2. モデル予測 (スコア) を表す列を入力データに追加するには、[入力データを記録] をオンにします。
  3. データがサンプル済みで、応答の平均が実態を反映していない場合は、[プライア] をオンにし、p(y==1) の事前確率をテキスト フィールドに入力します。
  4. 欠落データの処理方法を指定するには、[スキップ] または [平均値を補完] をオンにします。後者のオプションを選択すると、欠落データの代わりに平均値が追加されます。
  5. 入力データがトレーニングおよびテストのデータ サンプルにランダムに分割される場合は、1 ~ 100 の値を [トレーニング データの比率] に指定します。
  6. ステップ 5 で指定した値を 100 から引いた値を [テスト データの比率] に入力します。
  7. データフローを何度実行しても、データが必ず同じ方法でテスト データとトレーニング データに分割されるようにするには、[テスト データ用シード] に数値を入力します。フローを実行するたびにランダムな分割を行う場合は、このフィールドを "0" のままにします。
  8. [OK] をクリックして、モデルと設定を保存するか、次のタブで操作を続行します。