Configuration des options avancées

Laissez la case Ignorer champs de constante cochée pour ignorer les champs qui ont la même valeur pour chaque enregistrement.

Cochez Équilibrer les classes pour équilibrer la distribution des classes et soit sous-échantillonner des classes majoritaires, soit sous-échantillonner des classes minoritaires.

Sélectionnez un Type d'histogramme.

Auto: Les compartiments sont mis en bins du minimum au maximum par étapes de (mini.-maxi.)/N. Utilisez cette option pour indiquer le type d’histogramme pour la recherche des points de division optimaux.
QuantilesGlobal: Les compartiments présentent une population égale. Cela calcule des quantiles nbins pour chaque colonne numérique (non binaire), puis affine/rembourre chaque compartiment (entre deux quantiles) uniformément (et de manière aléatoire pour les restants) en un total de bins nbins_top_level.
Random: L’algorithme échantillonnera N-1 points du minimum au maximum et utilisera la liste triée de ces points pour trouver la meilleure division.
RoundRobin: L’algorithme passe en revue tous les types d’histogramme (un par arborescence).
UniformAdaptive: Chaque fonction est mise en bins en compartiments de taille de pas égale (pas de population). Il s'agit de la méthode la plus rapide, mais elle peut entraîner des divisions moins précises si la distribution est très désalignée.

Sélectionnez un Chiffrement catégorique.

Auto: Effectue automatiquement un chiffrement enum.
Binary: Convertit les catégories en nombres entiers, puis en binaires, et assigne à chaque chiffre une colonne distincte. Chiffre les données dans moins de dimensions, mais avec une certaine distorsion des distances.
Remarque : Il ne peut pas exister plus de 32 colonnes par fonction catégorique.
Eigen: Colonnes k par fonction catégorique, conservant les projections d'une matrice chiffrée à chaud sur un espace propre k-dim uniquement.
Enum: Passe en revue tous les types d’histogramme (un par arborescence).
OneHotExplicit: Il existe une colonne par catégorie, avec « 1 » ou « 0 » dans chaque cellule indiquant si la ligne contient la catégorie de cette colonne.

Laissez la case Seed de l'algorithme et N fois cochée et saisissez un numéro de seed pour vous assurer que lorsque les données sont divisées en données de test et de formation, cela se produit de la même manière chaque fois que vous exécutez le flux de données. Décochez ce champ pour obtenir une division aléatoire chaque fois que vous exécutez le flux.

Cochez la case N fois et saisissez le nombre de fois si vous effectuez une validation croisée.

Cochez Attribution de fois et faites votre choix dans la liste déroulante si vous effectuez une validation croisée. Ce champ s’applique uniquement si vous avez saisi une valeur dans N fois et si Champ Fois n’est pas spécifié.

Auto: Permet à l’algorithme de sélectionner automatiquement une option ; actuellement, il utilise Random (Aléatoire).
Modulo: Distribue le jeu de données de façon égale dans les occurrences N fois et ne dépend pas du seed.
Random: Distribue les données de manière aléatoire dans les occurrences N fois ; recommandé pour les grands jeux de données.
Stratified: Stratifie les occurrences N fois en fonction de la variable de réponse pour les problèmes de classification. Répartit uniformément les observations des différentes classes dans tous les jeux lors de la division d’un jeu de données en données de formation et de test. Cela peut être utile s’il existe de nombreuses classes et si le jeu de données est relativement petit.

Si vous effectuez une validation croisée, cochez la case Champ Fois et sélectionnez le champ qui contient l'affectation d'index fois la validation croisée dans la liste déroulante.

Ce champ s’applique uniquement si vous n'avez pas saisi de valeur dans N fois ni dans Attribution de fois.

Cochez Arrêt d'itérations pour arrêter la formation quand l'option Stopping_metric ne s'améliore pas pour le nombre spécifié de cycles de formation et saisissez le nombre d'échecs de cycle de formation qui doivent se produire avant l'arrêt. Pour désactiver cette fonction, spécifiez 0. La métrique est calculée sur les données de validation (le cas échéant) ; sinon, les données de formation sont utilisées.

Sélectionnez un Arrêt de métrique pour déterminer quand quitter la création de nouvelles arborescences.

AUC: Zone sous la courbe ROC.
Remarque : S’applique uniquement aux modèles binomiaux.
Auto: La valeur par défaut est deviance.
Lifttopgroup: Haut 1 %.
Logloss: Perte logarithmique.
Meanperclasserror: Taux moyen de classification erronée.
Misclassification: Valeur de (1 - (prévisions correctes/prévisions totales)) * 100.
MSE: Erreur au carré moyenne ; intègre à la fois la variance et le biais du prédicteur.
RMSE: Erreur au carré moyenne racine ; mesure les différences entre les valeurs (valeurs des échantillons et de la population) prévues par un modèle ou un estimateur et les valeurs réellement observées. Également, racine carrée de MSE.

Cochez Arrêt de tolérance et saisissez une valeur pour indiquer la tolérance relative pour l’arrêt basé sur une mesure pour arrêter la formation si l'amélioration est inférieure à cette valeur. Ce champ est activé uniquement si vous avez coché la case Arrêt d'itérations.

Cochez Amélioration de division minimale et saisissez une valeur pour spécifier l’amélioration relative minimale de réduction d’erreurs au carré afin qu'une division de produise. Lorsqu'elle est correctement exécutée, cette option peut aider à réduire le surapprentissage. Les valeurs optimales figurent dans la plage 1e-10...1e-3. Ce champ est activé uniquement si vous avez coché la case Arrêt d'itérations.

Cliquez sur OK pour enregistrer le modèle et la configuration ou pour passer à l’onglet suivant.