Configuración de opciones avanzadas

  1. Deje marcada la opción Ignorar campos constantes para omitir campos que tienen el mismo valor para cada registro.
  2. Marque la opción Calcular valores de p para calcular valores de p a fin de obtener las estimaciones de parámetros.
  3. Marque la opción Quitar columna alineada para quitar automáticamente las columnas alineadas durante la construcción del modelo. Esto dará como resultado un coeficiente de 0 en el modelo devuelto.
    Esta opción debe estar marcada si la opción Calcular valores de p también está marcada.
  4. Deje marcada la opción Incluir término constante (interceptar) para incluir un término constante (interceptar) en el modelo.
    Debe marcar este campo si también marca la opción Quitar columna alineada.
  5. Seleccione un Solucionador desde la lista desplegable. Tenga en cuenta que CoordinateDescent y CoordinateDescentNaive se encuentran en etapa experimental.
    Automático
    El solucionador se determinará en función de los datos y parámetros de entrada.
    CoordinateDescent
    IRLSM con la versión de actualizaciones de covarianza del descenso cíclico por coordenadas en el bucle interior.
    CoordinateDescentNaive
    IRLSM con la versión de actualizaciones naive del descenso cíclico por coordenadas en el bucle interior.
    IRLSM
    Ideal para problemas con una pequeña cantidad de predictores o para búsquedas Lambda con penalidad L1.
    LBFGS
    Ideal para conjuntos de datos con muchas columnas.
  6. Deje marcada la opción Propagar para N iteraciones e ingrese el número de propagación para garantizar que cuando los datos se dividan en datos de prueba y de capacitación, esto ocurra siempre de la misma manera cada vez que ejecute el flujo de datos. Desmarque este campo para obtener una división aleatoria cada vez que ejecuta el flujo.
  7. Marque la opción N iteraciones e ingrese la cantidad de iteraciones si va a realizar una validación cruzada.
  8. Haga clic en Asignación de iteración y seleccione de la lista despegable si está ejecutando una validación cruzada. Este campo solo se aplica si ingresó un valor en N iteraciones y no se especificó el Campo de iteración.
    Automático

    Permite que el algoritmo seleccione automáticamente una opción; actualmente utiliza Aleatorio.

    Módulo

    Divide de manera uniforme el conjunto de datos en las iteraciones y no depende de la raíz.

    Aleatorio

    Divide de manera aleatoria los datos en piezas de n iteraciones; es ideal para grandes conjuntos de datos.

  9. Si está ejecutando una validación cruzada, marque la opción Campo de iteración y seleccione el campo que contiene la asignación del índice de iteración de validación cruzada en la lista desplegable.
    Este campo solo se aplica si no ingresó un valor en N iteraciones y Asignación de iteración.
  10. Marque la opción Iteración máxima e ingrese el número de iteraciones de capacitación que deben ocurrir.
  11. Marque la opción Objetivo épsilon e ingrese el umbral de convergencia; este debe ser un valor entre 0 y 1. Si el valor objetivo es menor que este umbral, el modelo se convergerá.
  12. Marque la opción Beta épsilon e ingrese el umbral de convergencia; este debe ser un valor entre 0 y 1. Si el valor objetivo es menor que este umbral, el modelo se convergerá. Si la normalización L1 del cambio beta actual está por debajo de este umbral, considere el uso de la convergencia.
  13. Una de las preocupaciones del modelado predictivo es el sobreajuste que ocurre cuando un modelo de análisis se asemeja demasiado (o exactamente) a un conjunto de datos específico y, por ende, podría ocurrir un error cuando se aplica a datos adicionales o a futuras observaciones. Uno de los métodos utilizados para reducir el sobreajuste es la regularización. Seleccione el Tipo de regularización que desea utilizar.
    LASSO (Operador de selección y reducción menos absoluto)

    Mediante esta regularización se selecciona un subconjunto pequeño de variables con un valor de lambda tan alto que pueda considerarse crucial. Es posible que no pueda ejecutarse correctamente si existen variables predictoras correlacionadas, ya que seleccionará una variable del grupo correlacionado y quitará las demás. También se limita según la dimensionalidad amplia; cuando un modelo contiene más variables que registros, LASSO se limitará según la cantidad de variables que pueda seleccionar. Ridge Regression no tiene esta limitación. Cuando el número de variables incluidas en este modelo es grande, o si la solución es dispersa, se recomienda utilizar LASSO.

    Ridge Regression

    Mediante esta regularización se retienen todas las variables predictoras y se reducen sus coeficientes proporcionalmente. Cuando existen variables predictoras correlacionadas, Ridge Regression ayuda a reducir los coeficientes del grupo completo de variables correlacionadas para equipararlas. Si no desea quitar las variables predictoras correlacionadas de su modelo, utilice Ridge Regression.

    Elastic Net

    Combina LASSO y Ridge Regression cuando actúa como un selector de variable mientras ayuda a preservar el efecto grupal en las variables correlacionadas (se reducen simultáneamente coeficientes de variables correlacionadas). Elastic Net no se limita según la dimensionalidad amplia y ayuda a evaluar todas las variables cuando un modelo contiene más variables que registros.

  14. Marque Valor de alfa y cambie el valor si no desea utilizar el valor predeterminado 5. Mediante el parámetro alfa se controla la distribución entre las penalizaciones ℓ1 y ℓ2. Rango de valores válidos entre 0 y 1; con un valor de 1.0 se representa a LASSO, mientras que con un valor de 0.0 se produce Ridge Regression. En la tabla anterior se ilustra el efecto de alfa y lambda en la regularización.
    Nota: El signo igual único corresponde a una operación de asignación que significa “es”, mientras que el signo igual doble corresponde a un operador de igualdad y significa “igual a”.
  15. Marque Valor de lambda y especifique un valor si no desea utilizar el método de cálculo del valor de lambda predeterminado mediante Regresión lineal, la cual es una heurística basada en datos de capacitación. Mediante el parámetro lambda se controla la cantidad de regularización aplicada. Por ejemplo, si lambda corresponde a 0.0, no se aplica una regularización y se ignora el parámetro alfa.
  16. Marque Buscar valor óptimo de lambda para obtener modelos de cálculo de Regresión lineal para una ruta de regularización completa que inicie en lambda max (el valor más alto de lambda que tenga sentido; es decir, el valor más bajo con el que los coeficientes lleguen a cero) y termine en lambda min en la escala de registro, lo que provocaría una reducción de la solidez de la regularización en cada paso. Con el modelo obtenido se tendrán coeficientes que corresponden al valor óptimo de lambda como se decidió durante la capacitación.
  17. Marque Detener antes para finalizar un procesamiento cuando ya no exista ninguna mejora en la capacitación o en el conjunto de validación.
  18. Marque Máximo de búsqueda de lambdas e ingrese la cantidad máxima de lambdas que utilizará durante el proceso de búsqueda de lambda.
  19. Marque Máximo de predictores activos e ingrese la cantidad máxima de predictores que utilizará durante los cálculos. Este valor se utiliza como un criterio de detención para prevenir la creación de un modelo costoso con muchos predictores.
  20. Haga clic en Aceptar para guardar el modelo y la configuración, o continúe a la ficha siguiente.