Configuración de opciones avanzadas

  1. Deje marcada la opción Ignorar campos constantes para omitir campos que tienen el mismo valor para cada registro.
  2. Seleccione un Tipo de histograma.
    Automático
    Los depósitos se agrupan de mínimo a máximo en pasos de (máx-mín)/N. Utilice esta opción para especificar el tipo de histograma con el propósito de encontrar los puntos de división óptimos.
    QuantilesGlobal

    Los depósitos tienen una población equivalente. Lo anterior permite calcular los cuantiles nbins de cada columna numérica (no binaria) y luego refinar/rellenar cada depósito (entre dos cuantiles) de manera uniforme (y aleatoria para los elementos restantes) en un total de nbins_top_level agrupaciones.

    Aleatorio

    El algoritmo tomará muestras de los puntos N-1 de mínimo a máximo y utilizará la lista ordenada para encontrar la mejor división.

    RoundRobin

    El algoritmo pasará en ciclo por todos los tipos de histograma (uno por árbol).

    UniformAdaptive

    Permite agrupar cada característica en depósitos de tamaño de paso equivalente (no población). Este es el método más rápido, pero puede dar como resultado divisiones menos precisas si la distribución está muy desequilibrada.

  3. Seleccione una Codificación de categorías.
    Automático

    Permite realizar una codificación enum de forma automática.

    Binario
    Permite convertir categorías en números enteros, luego en formato binario, y asignar cada dígito a una columna independiente. Codifica los datos en menos dimensiones, pero con algunas distorsiones en cuanto a las distancias.
    Nota: No puede haber más de 32 columnas por característica de categoría.
    Eigen

    Columnas k por característica de categoría, que permiten mantener la proyección de matriz con codificación de asignación de estado activo uno (one-hot) solo en el espacio k-dim eigen.

    Enum

    Permite pasar en ciclo por todos los tipos de histograma (uno por árbol).

    OneHotExplicit

    Existe una columna por categoría, con el valor “1” o “0” en cada celda, lo que representa si la fila contiene esa categoría de columna.

  4. Marque la opción Propagar algoritmo y N iteraciones e ingrese una cantidad de propagaciones para garantizar que cuando los datos se dividan en datos de prueba y de capacitación, siempre se produzca de la misma manera cada vez que ejecute el flujo de datos. Desmarque este campo para obtener una división aleatoria cada vez que ejecuta el flujo.
  5. Marque la opción N iteraciones e ingrese la cantidad de iteraciones si va a realizar una validación cruzada.
  6. Marque la opción Asignación de iteración y seleccione la lista despegable si ejecuta una validación cruzada. Este campo solo se aplica si ingresó un valor en N iteraciones y no se especificó el Campo de iteración.
    Automático

    Permite que el algoritmo seleccione automáticamente una opción; actualmente utiliza Aleatorio.

    Módulo

    Divide de manera uniforme el conjunto de datos en las iteraciones y no depende de la raíz.

    Aleatorio

    Divide de manera aleatoria los datos en piezas de n iteraciones; es ideal para grandes conjuntos de datos.

  7. Si está ejecutando una validación cruzada, marque la opción Campo de iteración y seleccione el campo que contiene la asignación del índice de iteración de validación cruzada en la lista desplegable.
    Este campo solo se aplica si no ingresó un valor en N iteraciones y Asignación de iteración.
  8. Revise las Series de detención para finalizar la capacitación cuando no se mejore la opción Stopping_metric para la cantidad especificada de series de capacitación e ingrese la cantidad de series de capacitación incorrectas que se producirán antes de la detención. Para desactivar esta característica, ingrese 0. La métrica se calcula según los datos de validación (si se proporcionan); de lo contrario, se utilizarán los datos de capacitación.
  9. Seleccione una Métrica de detención para determinar cuándo se debe dejar de crear árboles nuevos.
    Automático

    El valor predeterminado es la desviación.

    desviación

    La desviación residual de la media; es igual al MSE.

    EMA

    Error medio absoluto; la diferencia entre dos variables continuas.

    MSE

    Error cuadrático medio; incluye tanto la varianza como el sesgo de un predictor.

    RMSE

    Raíz del error cuadrático medio; mide la diferencia entre los valores (de muestra y población) que predijo el modelo o un estimador y aquellos que se observaron en la práctica. También conocida como la raíz cuadrada de MSE.

    RMSLE
    Raíz del error logarítmico cuadrático medio; mide la proporción entre los valores predichos y los reales.
  10. Revise la Tolerancia de detención e ingrese un valor para especificar la tolerancia relativa para la detención según la métrica con el propósito de detener la capacitación si la mejora es inferior a este valor.
  11. Revise la Mejora mínima de división e ingrese un valor para especificar la mejora mínima relativa en una reducción de error cuadrático a fin de que se produzca una división. Cuando se ejecuta de forma correcta, esta opción puede ayudar a disminuir el sobreajuste. Los valores óptimos se encuentran en el rango de 1e-10...1e-3. Este campo está habilitado solo si marcó Series de detención.
  12. Haga clic en Aceptar para guardar el modelo y la configuración, o continúe a la ficha siguiente.