Subajuste (Underfitting)

El subajuste (underfitting) es una situación en la que un modelo de Machine Learning es tan simple o está tan pobremente entrenado que no logra aprender los patrones subyacentes de los datos, provocando alto sesgo y bajo rendimiento tanto en el conjunto de entrenamiento como en los datos nuevos.

El subajuste (en inglés, underfitting) es un problema clásico en aprendizaje automático e inteligencia artificial que aparece cuando un modelo es incapaz de capturar la complejidad real de los datos. Técnicamente, se asocia con un modelo de alta simplicidad (pocos parámetros, hipótesis demasiado rígidas) que genera alto sesgo y baja varianza.

En la práctica, un modelo con subajuste:

  • Presenta alto error en el conjunto de entrenamiento, porque ni siquiera logra ajustarse bien a los datos que ya ha visto.
  • Mantiene un rendimiento igual de pobre en validación o test, ya que no ha aprendido la estructura subyacente de los datos.
  • Suele ser el resultado de un modelo demasiado simple, tiempo de entrenamiento insuficiente, pocas características relevantes o regularización excesiva.

Ejemplos típicos de subajuste incluyen usar una regresión lineal para un problema claramente no lineal, entrenar pocas épocas una red neuronal o aplicar una regularización tan fuerte que el modelo queda prácticamente plano. En términos de la compensación sesgo-varianza, el subajuste representa el extremo de sesgo elevado: el modelo hace suposiciones demasiado simplificadas sobre la relación entre variables.

Desde un punto de vista aplicado, el subajuste es problemático en sistemas de IA orientados a negocio (predicción de demanda, scoring de usuarios, recomendadores, clasificación de leads, etc.) porque conduce a predicciones débiles, poco discriminativas y poco útiles para la toma de decisiones.

Para reducir o evitar el subajuste suelen aplicarse varias estrategias combinadas:

  • Aumentar la complejidad del modelo: usar modelos con más parámetros (árboles más profundos, modelos no lineales, redes neuronales con mayor capacidad).
  • Mejorar las características: ingeniería de features, creación de variables derivadas y selección de atributos más informativos.
  • Aumentar el tiempo de entrenamiento o ajustar hiperparámetros (épocas, tasa de aprendizaje, profundidad, número de neuronas, etc.).
  • Disminuir la regularización si es excesiva (reducir fuerza de L1/L2, dropout, etc.).
  • Revisar la calidad y cantidad de datos para asegurar que el modelo tiene información suficiente y representativa.

Diagnosticar subajuste suele hacerse comparando el error de entrenamiento y validación o analizando curvas de aprendizaje: si ambos errores son altos y cercanos entre sí, es un indicio claro de underfitting. El objetivo es encontrar un punto intermedio entre subajuste y sobreajuste (overfitting), donde el modelo se generalice bien a datos nuevos.

Ejemplos

  • Ejemplo:
    Intentar predecir el churn de clientes con una regresión lineal muy simple usando solo 1 o 2 variables (por ejemplo, edad y país), cuando el abandono depende de muchos factores (uso del producto, frecuencia de compra, interacción con soporte, canal de adquisición, etc.). El modelo no capta la complejidad real y ofrece predicciones casi inútiles.
  • Ejemplo:
    Entrenar una red neuronal para clasificar leads de marketing durante muy pocas épocas y con una arquitectura mínima. El modelo no llega a aprender los patrones entre el comportamiento del usuario (páginas vistas, campañas, eventos) y la conversión, lo que se traduce en baja precisión tanto en entrenamiento como en validación.
  • Ejemplo:
    Aplicar una regularización muy fuerte en un modelo de recomendación de productos, de forma que los pesos se reducen casi a cero. El sistema termina generando recomendaciones genéricas e indiferenciadas para casi todos los usuarios, reflejo de un modelo claramente subajustado.

Preguntas frecuentes

¿Cómo puedo saber si mi modelo está sufriendo subajuste (underfitting)?
Un modelo suele estar subajustado cuando el error de entrenamiento y el de validación son ambos altos y de valores similares. Si al aumentar la complejidad del modelo, entrenar más tiempo o mejorar las características el rendimiento mejora de forma clara, es una señal de que el problema inicial era underfitting.
¿Qué diferencia hay entre subajuste y sobreajuste en IA?
En el subajuste el modelo es demasiado simple: tiene alto sesgo y falla tanto en entrenamiento como en test. En el sobreajuste, el modelo es demasiado complejo: aprende ruido y particularidades del entrenamiento, logrando muy buen rendimiento en esos datos pero empeorando en validación y datos nuevos. La meta es encontrar un punto intermedio donde el modelo generalice bien.
¿Cuáles son las principales estrategias para evitar el subajuste en Machine Learning?
Las más habituales son aumentar la complejidad del modelo, mejorar la ingeniería de características, entrenar más tiempo, ajustar mejor los hiperparámetros y reducir una regularización excesiva. En muchos casos también ayuda revisar la calidad y representatividad del conjunto de datos utilizado.

SINÓNIMOS

También conocido como: Underfitting, Infraajuste, Ajuste insuficiente del modelo

ÚLTIMA REVISIÓN

Actualizado el: 01/11/2025