Configuración de opciones básicas

  1. Deje marcada la opción Estandarizar campos de entrada para estandarizar las columnas numéricas a fin de que la variación media y por unidad sea igual a cero.
    Si no utiliza la estandarización, los resultados podrían incluir componentes dominados por variables que aparentarán tener variaciones mayores en relación con otros atributos como una cuestión de escala y no como una contribución verdadera.
  2. Marque la opción Calificar datos de entrada para agregar una columna para la predicción del modelo (calificación) a los datos de entrada.
  3. Marque Anterior si se tomaron muestras de los datos y la media de respuesta no refleja la realidad; luego, ingrese la probabilidad anterior para p(y==1) en el campo de texto.
  4. Para especificar cómo manejar los datos faltantes, marque Omitir o Imputar medios, que agregará el valor medio para cualquier dato faltante.
  5. Especifique un valor entre 1 y 100 como Porcentaje para datos de capacitación cuando los datos de entrada se dividen aleatoriamente en muestras de datos de capacitación y de prueba.
  6. Ingrese el valor de 100 menos la cantidad que ingresó en el Paso 5 como Porcentaje para datos de prueba.
  7. Ingrese un número en Propagar para muestras para garantizar que cuando los datos se dividan en datos de prueba y de capacitación, esto ocurra siempre de la misma manera cada vez que ejecute el flujo de datos. Deje “0” en este campo para obtener una división aleatoria cada vez que ejecuta el flujo.
  8. Haga clic en Aceptar para guardar el modelo y la configuración, o continúe a la ficha siguiente.