高度なオプションの設定

  1. [定数フィールドを無視] をオンにすると、各レコードで値が同じフィールドがスキップされます。
  2. [初期化] ドロップダウンで、正しい初期化モードを選択します。
    Furthest

    最初の中心点はランダムに初期化しますが、2 つめの中心点はそれから最も遠いデータ ポイントになるように初期化します。互いに大きく分散するように、中心点を初期化します。

    Plus-Plus

    標準の k-means の再帰的最適化を行う前に、クラスタの中心を初期化します。k-means++ の初期化を行うと、アルゴリズムによって、最適な k-means ソリューションに O(log k) 近似のソリューションが検出されることが保証されます。

    Random

    こちらがデフォルトです。N 個のオブザベーション集合から K 個のクラスタを、各オブザベーションの選択確率が等しくなるようにランダムに選択します。

  3. [アルゴリズムのシード] をオンにしてシード数を入力すると、データフローを何度実行しても、データが必ず同じ方法でテスト データとトレーニング データに分割されます。フローを実行するたびにランダムな分割を行う場合は、このフィールドを "0" のままにします。
  4. 相互検証を実行する場合は [N フォールド] をオンにし、フォールドの数を入力します。
  5. 相互検証を実行する場合は、[フォールド割り当て] をオンにしてドロップダウン リストから選択します。このフィールドは、[N フォールド] に値が入力済みの場合のみ適用可能です。
    AUTO

    こちらがデフォルトです。オプションの自動選択をアルゴリズムに任せます。現在、[ランダム] が選択されます。

    Modulo

    データセットをフォールドに等分し、シードを基準としません。

    Random

    データを n フォールドのサブセットにランダムに分割します。大きなデータセットに最適です。

    Stratified

    分類問題の応答変数に基づいて、フォールドを層化します。データセットをトレーニング データとテスト データに分割する際に、観測値を複数のクラスからすべてのセットに均等に分散します。これは、クラスの数が多く、データセットが比較的小さい場合に便利です。

  6. [最大反復回数] をオンにして、実行する必要があるトレーニング反復回数を入力します。
  7. [OK] をクリックして、モデルと設定を保存するか、次のタブで操作を続行します。