基本オプションの設定

  1. 数値列を標準化し、平均が 0 で偏差が 1 になるようにするには、[標準化] をオンのままにします。
    標準化を使わない場合、実際の寄与の大きさではなく尺度の違いから、他の属性と比べて偏差が大きくなる変数によって左右される要素が結果に含まれる場合があります。
  2. [クラスタ数を見積もる] をオンにすると、K-Means アルゴリズムによって、モデルに含めるクラスタ数の判定が試みられます。[モデルのプロパティ] タブで所望のクラスタ数を指定した場合でも、データから判断して異なるクラスタ数の方が適切であることが、この処理によって検出される可能性があります。
  3. 入力データがトレーニングおよびテストのデータ サンプルにランダムに分割される場合は、1 ~ 100 の値を [トレーニング データの比率] に指定します。
  4. ステップ 5 で指定した値を 100 から引いた値を [テスト データの比率] に入力します。
  5. データフローを何度実行しても、データが必ず同じ方法でテスト データとトレーニング データに分割されるようにするには、[テスト データ用シード] に数値を入力します。フローを実行するたびにランダムな分割を行う場合は、このフィールドを "0" のままにします。
  6. [OK] をクリックして、モデルと設定を保存するか、次のタブで操作を続行します。