高度なオプションの設定
- [定数フィールドを無視] をオンにすると、各レコードで値が同じフィールドがスキップされます。
- [アルゴリズムのシード] をオンにしてシード数を入力すると、データフローを何度実行しても、データが必ず同じ方法でテスト データとトレーニング データに分割されます。フローを実行するたびにランダムな分割を行う場合は、このフィールドをオフにします。
-
[初期化] ドロップダウンで、適切な初期化モードを選択します。
初期化モード 説明 Furthest 最初の中心点はランダムに初期化しますが、2 つめの中心点はそれから最も遠いデータ ポイントになるように初期化します。互いに大きく分散するように、中心点を初期化します。 Plus-Plus (++) 標準の k-means の再帰的最適化を行う前に、クラスタの中心を初期化します。k-means++ の初期化を行うと、アルゴリズムによって、最適な k-means ソリューションに O(log k) 近似のソリューションが検出されることが保証されます。 Random N 個のオブザベーション集合から K 個のクラスタを、各オブザベーションの選択確率が等しくなるようにランダムに選択します。これはデフォルトの初期化モードです。 - [アルゴリズムのシード] をオンにしてシード数を入力すると、データフローを何度実行しても、データが必ず同じ方法でテスト データとトレーニング データに分割されます。フローを実行するたびにランダムな分割を行う場合は、このフィールドをオフにします。
- 相互検証を実行する場合は [N フォールド] をオンにし、フォールドの数を入力します。
-
相互検証を実行する場合は、[フォールド割り当て] をオンにしてドロップダウン リストから選択します。
フォールド割り当て 説明 Auto オプションの自動選択をアルゴリズムに任せます。現在、[ランダム] が選択されます。これがデフォルトです。 Modulo データセットをフォールドに等分し、シードを基準としません。 注: このフィールドは、[N フォールド] に値が入力済みの場合のみ適用可能です。 - [最大反復回数] をオンにし、実行する必要があるトレーニング反復回数を入力します。
- [OK] をクリックして、モデルと設定を保存するか、次のタブで操作を続行します。