Sobreajuste (Overfitting)

El sobreajuste (overfitting) ocurre cuando un modelo de IA aprende demasiado bien los datos de entrenamiento, incluyendo ruido y detalles específicos, lo que le impide generalizar bien a datos nuevos.

El sobreajuste, conocido en inglés como overfitting, es un problema común en aprendizaje automático e inteligencia artificial. Sucede cuando un modelo se ajusta excesivamente al conjunto de datos de entrenamiento, memorizando no solo los patrones generales, sino también el ruido, los valores atípicos y las fluctuaciones aleatorias propias de esos datos.

Como resultado, el modelo obtiene un rendimiento excelente sobre los datos de entrenamiento, pero falla al predecir correctamente sobre datos nuevos o no vistos. En lugar de aprender las relaciones subyacentes, el modelo se especializa en los detalles específicos del conjunto de entrenamiento, perdiendo capacidad de generalización.

El sobreajuste suele ocurrir cuando:

  • El modelo es demasiado complejo (muchos parámetros o capas profundas).
  • El conjunto de entrenamiento es pequeño o poco representativo.
  • El modelo se entrena durante demasiado tiempo (sobreentrenamiento).
  • Los datos contienen mucho ruido o características irrelevantes.

Para detectarlo, se compara el rendimiento del modelo en el conjunto de entrenamiento frente al de validación o prueba. Si el error en entrenamiento es muy bajo pero alto en prueba, es señal clara de sobreajuste.

Evitar el sobreajuste es clave para construir modelos robustos y útiles en la práctica. Las técnicas más comunes incluyen:

  • Validación cruzada: evaluar el modelo en múltiples particiones de los datos.
  • Regularización: añadir penalizaciones a la complejidad del modelo (L1, L2, dropout).
  • Reducción de complejidad: usar modelos más simples o menos capas.
  • Aumento de datos: generar más ejemplos de entrenamiento para mejorar la generalización.
  • Detención temprana (early stopping): detener el entrenamiento cuando el rendimiento en validación deja de mejorar.

Ejemplos

  • Ejemplo:
    Un modelo de clasificación de imágenes aprende a identificar gatos con una precisión del 99% en el conjunto de entrenamiento, pero solo del 60% en imágenes nuevas. Esto indica que memorizó detalles específicos de las imágenes de entrenamiento (fondos, ángulos, ruido) en lugar de aprender características generales de los gatos.
  • Ejemplo:
    Un modelo de predicción de precios de viviendas ajusta una curva que pasa exactamente por cada punto del conjunto de entrenamiento, incluyendo errores y fluctuaciones aleatorias. Cuando se le dan nuevas viviendas, sus predicciones son muy inestables y poco precisas.

Preguntas frecuentes

¿Cómo sé si mi modelo tiene sobreajuste?
Si tu modelo tiene un error muy bajo en los datos de entrenamiento pero un error significativamente más alto en los datos de validación o prueba, es probable que esté sobreajustado. También puedes observar que mejora mucho en entrenamiento pero empeora o se estanca en validación.
¿Cuál es la diferencia entre sobreajuste y subajuste?
El sobreajuste ocurre cuando el modelo es demasiado complejo y se ajusta demasiado a los datos de entrenamiento, perdiendo capacidad de generalización. El subajuste (underfitting) ocurre cuando el modelo es demasiado simple y no logra capturar los patrones subyacentes, obteniendo mal rendimiento tanto en entrenamiento como en prueba.

SINÓNIMOS

También conocido como: Overfitting, Ajuste excesivo

ÚLTIMA REVISIÓN

Actualizado el: 10/12/2025