高度なオプションの設定

[定数フィールドを無視] をオンにすると、各レコードで値が同じフィールドがスキップされます。
[アルゴリズムのシード] をオンにしてシード数を入力すると、データフローを何度実行しても、データが必ず同じ方法でテストデータとトレーニングデータに分割されます。フローを実行するたびにランダムな分割を行う場合は、このフィールドをオフにします。

[初期化] ドロップダウンで、適切な初期化モードを選択します。

初期化モード	説明
Furthest	最初の中心点はランダムに初期化しますが、2 つめの中心点はそれから最も遠いデータポイントになるように初期化します。互いに大きく分散するように、中心点を初期化します。
Plus-Plus (++)	標準の k-means の再帰的最適化を行う前に、クラスタの中心を初期化します。k-means++ の初期化を行うと、アルゴリズムによって、最適な k-means ソリューションに O(log k) 近似のソリューションが検出されることが保証されます。
Random	N 個のオブザベーション集合から K 個のクラスタを、各オブザベーションの選択確率が等しくなるようにランダムに選択します。これはデフォルトの初期化モードです。

[アルゴリズムのシード] をオンにしてシード数を入力すると、データフローを何度実行しても、データが必ず同じ方法でテストデータとトレーニングデータに分割されます。フローを実行するたびにランダムな分割を行う場合は、このフィールドをオフにします。
相互検証を実行する場合は [N フォールド] をオンにし、フォールドの数を入力します。

相互検証を実行する場合は、[フォールド割り当て] をオンにしてドロップダウンリストから選択します。

フォールド割り当て	説明
Auto	オプションの自動選択をアルゴリズムに任せます。現在、[ランダム] が選択されます。これがデフォルトです。
Modulo	データセットをフォールドに等分し、シードを基準としません。

注: このフィールドは、[N フォールド] に値が入力済みの場合のみ適用可能です。

[最大反復回数] をオンにし、実行する必要があるトレーニング反復回数を入力します。
[OK] をクリックして、モデルと設定を保存するか、次のタブで操作を続行します。