Konfigurieren erweiterter Optionen
- Lassen Sie Konstante Felder ignorieren aktiviert, damit Felder übersprungen werden, die für die einzelnen Datensätze die gleichen Werte enthalten.
- Lassen Sie Seed für Algorithmus aktiviert, und geben Sie einen numerischen Ausgangswert ein, um sicherzustellen, dass die Darstellung der Daten bei jeder Datenflussausführung gleich ist, wenn diese in Test- und Trainingsdaten aufgeteilt werden. Deaktivieren Sie dieses Feld, damit die Aufteilung bei jeder Datenflussausführung beliebig erfolgt.
-
Wählen Sie im Dropdown-Menü Init den richtigen Initialisierungsmodus aus.
- Furthest
-
Initialisiert den ersten Mittelpunkt zufällig; den zweiten Mittelpunkt initialisiert der Modus jedoch anschließend so, dass es der davon am weitesten entfernte Datenpunkt ist. Initialisiert die Mittelpunkte so, dass sie gut verteilt sind.
- Plus-Plus
-
Initialisiert das Clusterzentrum, bevor mit den standardmäßigen „k-means“-Optimierungsiterationen fortgefahren wird. Bei der „k-means++“-Initialisierung wird garantiert, dass der Algorithmus die Lösung „O(log k) competitive“ für die optimale „k-means“-Lösung findet.
- Random
-
Standardeinstellung. Wählt Cluster K zufällig aus der Gruppe der Beobachtungen N aus, damit die einzelnen Beobachtungen gleichermaßen die Möglichkeit haben, ausgewählt zu werden.
- Lassen Sie Seed für N-fach aktiviert, und geben Sie einen numerischen Ausgangswert ein, um sicherzustellen, dass die Darstellung der Daten bei jeder Datenflussausführung gleich ist, wenn diese in Test- und Trainingsdaten aufgeteilt werden. Deaktivieren Sie dieses Feld, damit die Aufteilung bei jeder Datenflussausführung beliebig erfolgt.
- Aktivieren Sie N-fach und geben Sie die Anzahl der Folds ein, wenn Sie eine Kreuzvalidierung durchführen.
-
Aktivieren Sie Faktorzuweisung, und wählen Sie aus der Dropdown-Liste aus, ob Sie eine Kreuzvalidierung durchführen. Dieses Feld ist nur anwendbar, wenn Sie unter N-fach einen Wert eingegeben haben.
- Auto
-
Standardeinstellung. Lässt zu, dass der Algorithmus automatisch eine Option auswählt; derzeit wird „Random“ verwendet.
- Modulo
-
Teilt das Dataset gleichmäßig auf die Folds auf und ist nicht vom Ausgangswert abhängig.
- Random
-
Teilt die Daten zufällig in „N-fach“-Bestandteile ein; diese Einstellung ist für umfangreiche Datasets am besten geeignet.
- Aktivieren Sie Maximale Iterationen und geben Sie die Anzahl der Trainingsiterationen ein, die erfolgen sollen.
- Klicken Sie auf OK, um das Modell und die Konfiguration zu speichern, oder fahren Sie mit der nächsten Registerkarte fort.