Configuration des options avancées

  1. Laissez la case Ignorer champs de constante cochée pour ignorer les champs qui ont la même valeur pour chaque enregistrement.
  2. Laissez la case Valeur initiale de l'algorithme cochée et saisissez un numéro de seed pour vous assurer que lorsque les données sont divisées en données de test et de formation, cela se produit de la même manière chaque fois que vous exécutez le flux de données. Décochez ce champ pour obtenir une division aléatoire chaque fois que vous exécutez le flux.
  3. Sélectionnez le mode d’initialisation correct dans la liste déroulante Init.
    Furthest

    Initialise le premier centroïde de manière aléatoire, mais initialise le deuxième centroïde de sorte qu'il soit le point de données le plus éloigné de lui. Initialise les centroïdes de sorte qu'ils soient bien répartis l'un par rapport à l'autre.

    Plus-Plus

    Initialise les centres de cluster avant de procéder aux itérations d'optimisation k-means standard. Avec l'initialisation k-means++, l'algorithme est sûr de trouver une solution O(log k) compétitive par rapport à la solution k-means optimale.

    Random

    Par défaut. Sélectionne les clusters K à partir de l’ensemble de N observations de manière aléatoire, de sorte que chaque observation ait autant de chance d’être sélectionnée.

  4. Laissez la case Seed pour N fois cochée et saisissez un numéro de seed pour vous assurer que lorsque les données sont divisées en données de test et de formation, cela se produit de la même manière chaque fois que vous exécutez le flux de données. Décochez ce champ pour obtenir une division aléatoire chaque fois que vous exécutez le flux.
  5. Cochez la case N fois et saisissez le nombre de fois si vous effectuez une validation croisée.
  6. Cochez Attribution de fois et faites votre choix dans la liste déroulante si vous effectuez une validation croisée. Ce champ s’applique uniquement si vous avez saisi une valeur dans N fois.
    Auto

    Par défaut. Permet à l’algorithme de sélectionner automatiquement une option ; actuellement, il utilise Random (Aléatoire).

    Modulo

    Distribue le jeu de données de façon égale dans les occurrences N fois et ne dépend pas du seed.

    Random

    Distribue les données de manière aléatoire dans les occurrences N fois ; recommandé pour les grands jeux de données.

  7. Cochez Itérations maximales et saisissez le nombre d’itérations de formation qui doivent être effectuées.
  8. Cliquez sur OK pour enregistrer le modèle et la configuration ou pour passer à l’onglet suivant.