Konfigurieren erweiterter Optionen

  1. Lassen Sie Konstante Felder ignorieren aktiviert, damit Felder übersprungen werden, die für die einzelnen Datensätze die gleichen Werte enthalten.
  2. Lassen Sie Seed für Algorithmus aktiviert, und geben Sie einen numerischen Ausgangswert ein, um sicherzustellen, dass die Darstellung der Daten bei jeder Datenflussausführung gleich ist, wenn diese in Test- und Trainingsdaten aufgeteilt werden. Deaktivieren Sie dieses Feld, damit die Aufteilung bei jeder Datenflussausführung beliebig erfolgt.
  3. Wählen Sie im Dropdown-Menü Init den richtigen Initialisierungsmodus aus.
    Furthest

    Initialisiert den ersten Mittelpunkt zufällig; den zweiten Mittelpunkt initialisiert der Modus jedoch anschließend so, dass es der davon am weitesten entfernte Datenpunkt ist. Initialisiert die Mittelpunkte so, dass sie gut verteilt sind.

    Plus-Plus

    Initialisiert das Clusterzentrum, bevor mit den standardmäßigen „k-means“-Optimierungsiterationen fortgefahren wird. Bei der „k-means++“-Initialisierung wird garantiert, dass der Algorithmus die Lösung „O(log k) competitive“ für die optimale „k-means“-Lösung findet.

    Random

    Standardeinstellung. Wählt Cluster K zufällig aus der Gruppe der Beobachtungen N aus, damit die einzelnen Beobachtungen gleichermaßen die Möglichkeit haben, ausgewählt zu werden.

  4. Lassen Sie Seed für N-fach aktiviert, und geben Sie einen numerischen Ausgangswert ein, um sicherzustellen, dass die Darstellung der Daten bei jeder Datenflussausführung gleich ist, wenn diese in Test- und Trainingsdaten aufgeteilt werden. Deaktivieren Sie dieses Feld, damit die Aufteilung bei jeder Datenflussausführung beliebig erfolgt.
  5. Aktivieren Sie N-fach und geben Sie die Anzahl der Folds ein, wenn Sie eine Kreuzvalidierung durchführen.
  6. Aktivieren Sie Faktorzuweisung, und wählen Sie aus der Dropdown-Liste aus, ob Sie eine Kreuzvalidierung durchführen. Dieses Feld ist nur anwendbar, wenn Sie unter N-fach einen Wert eingegeben haben.
    Auto

    Standardeinstellung. Lässt zu, dass der Algorithmus automatisch eine Option auswählt; derzeit wird „Random“ verwendet.

    Modulo

    Teilt das Dataset gleichmäßig auf die Folds auf und ist nicht vom Ausgangswert abhängig.

    Random

    Teilt die Daten zufällig in „N-fach“-Bestandteile ein; diese Einstellung ist für umfangreiche Datasets am besten geeignet.

  7. Aktivieren Sie Maximale Iterationen und geben Sie die Anzahl der Trainingsiterationen ein, die erfolgen sollen.
  8. Klicken Sie auf OK, um das Modell und die Konfiguration zu speichern, oder fahren Sie mit der nächsten Registerkarte fort.