高度なオプションの設定

[定数フィールドを無視] をオンにすると、各レコードで値が同じフィールドがスキップされます。
[アルゴリズムのシード] をオンにしてシード数を入力すると、データフローを何度実行しても、データが必ず同じ方法でテストデータとトレーニングデータに分割されます。フローを実行するたびにランダムな分割を行う場合は、このフィールドをオフにします。
[初期化] ドロップダウンで、正しい初期化モードを選択します。
Furthest

最初の中心点はランダムに初期化しますが、2 つめの中心点はそれから最も遠いデータポイントになるように初期化します。互いに大きく分散するように、中心点を初期化します。

Plus-Plus (++)

標準の k-means の再帰的最適化を行う前に、クラスタの中心を初期化します。k-means++ の初期化を行うと、アルゴリズムによって、最適な k-means ソリューションに O(log k) 近似のソリューションが検出されることが保証されます。

Random

こちらがデフォルトです。N 個のオブザベーション集合から K 個のクラスタを、各オブザベーションの選択確率が等しくなるようにランダムに選択します。
[アルゴリズムのシード] をオンにしてシード数を入力すると、データフローを何度実行しても、データが必ず同じ方法でテストデータとトレーニングデータに分割されます。フローを実行するたびにランダムな分割を行う場合は、このフィールドをオフにします。
相互検証を実行する場合は [N フォールド] をオンにし、フォールドの数を入力します。
相互検証を実行する場合は、[フォールド割り当て] をオンにしてドロップダウンリストから選択します。このフィールドは、[N フォールド] に値が入力済みの場合のみ適用可能です。
Auto

こちらがデフォルトです。オプションの自動選択をアルゴリズムに任せます。現在、[ランダム] が選択されます。

Modulo

データセットをフォールドに等分し、シードを基準としません。

Random

データを n フォールドのサブセットにランダムに分割します。大きなデータセットに最適です。
[最大反復回数] をオンにし、実行する必要があるトレーニング反復回数を入力します。
[OK] をクリックして、モデルと設定を保存するか、次のタブで操作を続行します。