Configuración de opciones avanzadas

  1. Deje marcada la opción Ignorar campos constantes para omitir campos que tienen el mismo valor para cada registro.
  2. Seleccione el modo de inicialización correcto en el menú desplegable Inic.
    Más lejano

    Inicializa el primer centroide al azar, pero luego inicializa el segundo centroide para que sea el punto de datos más lejano de él. Inicializa los centroides para que queden bien separados entre sí.

    Plus-Plus

    Inicializa los centros de clúster antes de proceder con las iteraciones de optimización k-means estándar. Con la inicialización k-means++, se garantiza que el algoritmo encuentre una solución que es O (registro k) competitiva con la solución k-means óptima.

    Aleatorio

    Opción predeterminada. Elige clústeres K del conjunto de observaciones N en forma aleatoria, de manera que cada observación tenga la misma posibilidad de ser elegida.

  3. Deje marcada la opción Propagar para N iteraciones e ingrese el número de propagación para garantizar que cuando los datos se dividan en datos de prueba y de capacitación, esto ocurra siempre de la misma manera cada vez que ejecute el flujo de datos. Deje “0” en este campo para obtener una división aleatoria cada vez que ejecuta el flujo.
  4. Marque la opción N iteraciones e ingrese la cantidad de iteraciones si va a realizar una validación cruzada.
  5. Marque la opción Asignación de iteración y seleccione la lista despegable si está ejecutando una validación cruzada. Este campo solo se aplica si ingresó un valor en N iteraciones.
    AUTO

    Opción predeterminada. Permite que el algoritmo seleccione automáticamente una opción; actualmente utiliza Aleatorio.

    Módulo

    Divide de manera uniforme el conjunto de datos en las iteraciones y no depende de la raíz.

    Aleatorio

    Divide de manera aleatoria los datos en piezas de n iteraciones; es ideal para grandes conjuntos de datos.

    Estratificado

    Estratifica las iteraciones en función de la variable de respuesta para los problemas de clasificación. Distribuye de manera uniforme las observaciones de las diferentes clases en todos los conjuntos mediante la división de un conjunto de datos en datos de capacitación y de prueba. Puede resultar útil si hay muchas clases y el conjunto de datos es relativamente pequeño.

  6. Marque la opción Iteraciones máximas e ingrese el número de iteraciones de capacitación que deben ocurrir.
  7. Haga clic en Aceptar para guardar el modelo y la configuración, o continúe a la ficha siguiente.