Validación cruzada (cross-validation)

Técnica para evaluar la precisión y generalización de modelos predictivos mediante particiones repetidas de los datos.

La validación cruzada, o cross-validation, es una técnica estadística fundamental en inteligencia artificial y machine learning que permite evaluar el rendimiento de un modelo predictivo. Consiste en dividir el conjunto de datos en varias particiones o subconjuntos, entrenar el modelo con algunos de ellos y validar su desempeño con los restantes, repitiendo este proceso varias veces para obtener una estimación más robusta y fiable.

El objetivo principal es evitar el sobreajuste (overfitting), donde un modelo se ajusta demasiado a los datos de entrenamiento y falla al generalizar con datos nuevos. La validación cruzada ayuda a garantizar que el modelo funcione bien con datos no vistos previamente.

Uno de los métodos más comunes es la validación cruzada de K iteraciones (K-fold cross-validation), donde los datos se dividen en K subconjuntos. En cada iteración, uno de estos subconjuntos se usa para prueba y los otros K-1 para entrenamiento. Al final, se calcula la media de las métricas obtenidas en cada iteración para evaluar el modelo.

Otra variante es la validación cruzada dejando uno fuera (Leave-One-Out Cross-Validation, LOOCV), que usa una sola muestra para prueba y el resto para entrenamiento, repitiendo esto para cada muestra, aunque es computacionalmente más costosa.

Ejemplos

  • Ejemplo:
    Evaluar un modelo que clasifica imágenes para determinar si una persona es hombre o mujer usando validación cruzada de 10 iteraciones para medir su precisión.
  • Ejemplo:
    Comparar dos algoritmos de clasificación, como máquinas de vectores de soporte (SVM) y K-vecinos más cercanos (KNN), mediante validación cruzada para elegir el más adecuado.
  • Ejemplo:
    Aplicar validación cruzada dejando uno fuera (LOOCV) para evaluar un modelo con un conjunto de datos pequeño, asegurando que cada muestra se use para prueba una vez.

Preguntas frecuentes

¿Por qué es importante la validación cruzada en machine learning?
Porque permite estimar con mayor precisión la capacidad de generalización de un modelo, evitando que se ajuste demasiado a los datos de entrenamiento y asegurando que funcione bien con datos nuevos.
¿Cuál es la diferencia entre validación cruzada y el método de retención (holdout)?
El método de retención divide los datos una sola vez en entrenamiento y prueba, mientras que la validación cruzada repite esta división varias veces para obtener una evaluación más estable y confiable.
¿Qué significa K en la validación cruzada de K iteraciones?
K es el número de particiones o subconjuntos en que se divide el conjunto de datos. Cada uno se usa una vez como conjunto de prueba mientras los otros K-1 se usan para entrenamiento.

SINÓNIMOS

También conocido como: Cross-validation, Validación cruzada de K pliegues, Validación cruzada de k iteraciones

ÚLTIMA REVISIÓN

Actualizado el: 10/12/2025