高度なオプションの設定

  1. [定数フィールドを無視] をオンにすると、各レコードで値が同じフィールドがスキップされます。
  2. [アルゴリズムのシード] をオンにしてシード数を入力すると、データフローを何度実行しても、データが必ず同じ方法でテスト データとトレーニング データに分割されます。フローを実行するたびにランダムな分割を行う場合は、このフィールドをオフにします。
  3. [初期化] ドロップダウンで、正しい初期化モードを選択します。
    Furthest

    最初の中心点はランダムに初期化しますが、2 つめの中心点はそれから最も遠いデータ ポイントになるように初期化します。互いに大きく分散するように、中心点を初期化します。

    Plus-Plus (++)

    標準の k-means の再帰的最適化を行う前に、クラスタの中心を初期化します。k-means++ の初期化を行うと、アルゴリズムによって、最適な k-means ソリューションに O(log k) 近似のソリューションが検出されることが保証されます。

    Random

    こちらがデフォルトです。N 個のオブザベーション集合から K 個のクラスタを、各オブザベーションの選択確率が等しくなるようにランダムに選択します。

  4. [アルゴリズムのシード] をオンにしてシード数を入力すると、データフローを何度実行しても、データが必ず同じ方法でテスト データとトレーニング データに分割されます。フローを実行するたびにランダムな分割を行う場合は、このフィールドをオフにします。
  5. 相互検証を実行する場合は [N フォールド] をオンにし、フォールドの数を入力します。
  6. 相互検証を実行する場合は、[フォールド割り当て] をオンにしてドロップダウン リストから選択します。このフィールドは、[N フォールド] に値が入力済みの場合のみ適用可能です。
    Auto

    こちらがデフォルトです。オプションの自動選択をアルゴリズムに任せます。現在、[ランダム] が選択されます。

    Modulo

    データセットをフォールドに等分し、シードを基準としません。

    Random

    データを n フォールドのサブセットにランダムに分割します。大きなデータセットに最適です。

  7. [最大反復回数] をオンにし、実行する必要があるトレーニング反復回数を入力します。
  8. [OK] をクリックして、モデルと設定を保存するか、次のタブで操作を続行します。