Konfigurieren erweiterter Optionen

  1. Lassen Sie Konstante Felder ignorieren aktiviert, damit Felder übersprungen werden, die für die einzelnen Datensätze die gleichen Werte enthalten.
  2. Aktivieren Sie Klassen ausgleichen, um die Klassenverteilung auszugleichen und entweder für die Mehrheitsklassen ein Undersampling oder für die Minderheitsklassen ein Oversampling durchzuführen.
  3. Wählen Sie einen Histogrammtyp aus.
    Auto
    Für Buckets wird ein Binning vom Minimum bis zum Maximum in Schritten von (max-min)/N durchgeführt. Verwenden Sie diese Option, um den Histogrammtyp für das Auffinden optimaler Teilungspunkte anzugeben.
    QuantilesGlobal

    Buckets haben die gleiche Population. Dies berechnet nbins Quantile für jede numerische (nicht binäre) Spalte. Dann wird jeder Bucket (zwischen zwei Quantilen) einheitlich angepasst (zufällig für Reste), sodass sich insgesamt nbins_top_level Bins ergeben.

    Random

    Der Algorithmus nimmt Stichproben von N-1 Punkten von Minimum bis Maximum und verwendet die sortierte Liste, um die beste Teilung zu finden.

    RoundRobin

    Der Algorithmus wechselt durch alle Histogrammtypen (einer pro Struktur).

    UniformAdaptive

    Jedes Feature wird per Binning einem Bucket zugeordnet, sodass sich Buckets mit gleicher Schrittgröße (nicht Population) ergeben. Dies ist die schnellste Methode, kann aber zu ungenaueren Aufteilungen führen, wenn die Verteilung sehr verzerrt ist.

  4. Wählen Sie eine Kategorische Codierung aus.
    Auto

    Führt automatisch eine Enum-Codierung durch.

    Binary
    Konvertiert Kategorien in Ganzzahlen, dann in Binärwerte, und weist jeder Ziffer eine separate Spalte zu. Codiert die Daten in weniger Dimensionen, jedoch werden Entfernungen etwas verzerrt.
    Anmerkung: Pro kategorischem Feature können nicht mehr als 32 Spalten vorhanden sein.
    Eigen

    k Spalten pro kategorischem Feature, behält nur Projektionen einer 1-aus-n-codierten Matrix auf k-dimensionalen Eigen-Raum bei.

    Enum

    Wechselt durch alle Histogrammtypen (einer pro Struktur).

    OneHotExplicit

    Pro Kategorie ist eine Spalte vorhanden, wobei „1“ oder „0“ in jeder Zelle anzeigen, ob die Zeile die Kategorie dieser Spalte enthält.

  5. Lassen Sie Seed für Algorithmus und n-fach aktiviert, und geben Sie einen numerischen Ausgangswert ein, um sicherzustellen, dass die Darstellung der Daten bei jeder Datenflussausführung gleich ist, wenn diese in Test- und Trainingsdaten aufgeteilt werden. Deaktivieren Sie dieses Feld, damit die Aufteilung bei jeder Datenflussausführung beliebig erfolgt.
  6. Aktivieren Sie N-fach und geben Sie die Anzahl der Folds ein, wenn Sie eine Kreuzvalidierung durchführen.
  7. Aktivieren Sie Faktorzuweisung, und wählen Sie aus der Dropdown-Liste aus, ob Sie eine Kreuzüberprüfung durchführen. Dieses Feld ist nur anwendbar, wenn Sie unter N-fach einen Wert eingegeben haben und Faktorfeld nicht angegeben ist.
    Auto

    Lässt zu, dass der Algorithmus automatisch eine Option auswählt; derzeit wird „Random“ verwendet.

    Modulo

    Teilt das Dataset gleichmäßig auf die Folds auf und ist nicht vom Ausgangswert abhängig.

    Random

    Teilt die Daten zufällig in „N-fach“-Bestandteile ein; diese Einstellung ist für umfangreiche Datasets am besten geeignet.

    Stratified

    Schichtet die Folds basierend auf der Antwortvariable für Klassifizierungsprobleme. Verteilt Beobachtungen aus den verschiedenen Klassen gleichmäßig auf alle Datasets, wenn ein Dataset in Trainings- und Testdaten aufgeteilt wird. Dies kann nützlich sein, wenn viele Klassen vorhanden sind und das Dataset relativ klein ist.

  8. Wenn Sie eine Kreuzvalidierung durchführen, aktivieren Sie Faktorfeld und wählen Sie aus der Dropdown-Liste das Feld aus, das die Faktorindexzuweisung für die Kreuzvalidierung enthält.
    Dieses Feld ist nur anwendbar, wenn Sie unter N-fach und Faktorzuweisung keinen Wert eingegeben haben.
  9. Aktivieren Sie Runden stoppen, um das Training zu beenden, wenn die Option „Stopping_metric“ sich nicht in der angegebenen Anzahl von Trainingsrunden verbessert, und geben Sie die Anzahl nicht erfolgreicher Trainingsrunden ein, die absolviert werden, bevor gestoppt werden soll. Um diese Funktion zu deaktivieren, geben Sie „0“ an. Die Metrik wird anhand der Überprüfungsdaten berechnet (falls vorhanden), ansonsten werden Trainingsdaten verwendet.
  10. Wählen Sie eine Abbruchmetrik, um festzulegen, wann die Erstellung neuer Strukturen eingestellt werden soll.
    AUC
    Fläche unter ROC-Kurve.
    Anmerkung: Gilt nur für binomiale Modelle.
    Auto

    Standardwert ist Abweichung.

    Lifttopgroup

    Beste 1 %.

    Logloss

    Logarithmischer Abfall.

    Meanperclasserror

    Die Fehlklassifizierungsrate.

    Misclassification

    Der Wert von (1 - (korrekte Vorhersagen/gesamte Vorhersagen)) * 100.

    MSE

    Mittlerer quadratischer Fehler, berücksichtigt sowohl Streuung als auch Tendenz des Prädiktors.

    RMSE

    Wurzel aus dem mittleren quadratischen Fehler; misst die Differenz zwischen Werten (Stichproben- und Populationswerte), die von einem Modell oder einem Schätzwert vorhergesagt wurden, und tatsächlich beobachteten Werten. Auch Quadratwurzel von MSE.

  11. Aktivieren Sie Abbruchtoleranz, und geben Sie einen Wert ein, um die relative Toleranz für den metrikbasierten Abbruch des Trainings zu spezifizieren, wenn die Verbesserung geringer ist als dieser Wert. Dieses Feld ist nur aktiviert, wenn Sie Runden stoppen aktiviert haben.
  12. Aktivieren Sie Minimale Aufteilungsverbesserung, und geben Sie einen Wert ein, um die minimale relative Verbesserung in der Verringerung des quadratischen Fehlers anzugeben, bei der eine Aufteilung durchgeführt werden soll. Wenn diese Option richtig ausgeführt wird, kann die Überanpassung verringert werden. Optimale Werte bewegen sich im Bereich von 1e-10 bis 1e-3. Dieses Feld ist nur aktiviert, wenn Sie Runden stoppen aktiviert haben.
  13. Klicken Sie auf OK, um das Modell und die Konfiguration zu speichern, oder fahren Sie mit der nächsten Registerkarte fort.