Métricas de clasificación (accuracy, precision, recall, F1)

Conjunto de métricas cuantitativas que evalúan el desempeño de un modelo de clasificación midiendo la exactitud de sus predicciones en diferentes dimensiones.

Las métricas de clasificación son indicadores fundamentales en machine learning que permiten evaluar qué tan bien un modelo predice categorías. A diferencia de una única métrica de exactitud, estas cuatro métricas ofrecen una visión completa del desempeño:

Accuracy (Exactitud): Mide el porcentaje total de predicciones correctas sobre el total de datos. Se calcula como (TP + TN) / (TP + TN + FP + FN). Aunque es intuitiva, puede ser engañosa con datos desbalanceados, donde un modelo podría obtener alta exactitud simplemente prediciendo la clase mayoritaria.

Precision: Responde a la pregunta: de todas las predicciones positivas que hizo el modelo, ¿cuántas fueron correctas? Se calcula como TP / (TP + FP). Es crucial cuando los falsos positivos son costosos, como en diagnósticos médicos donde un falso positivo causa alarma innecesaria.

Recall (Exhaustividad): Responde a: de todos los casos positivos reales, ¿cuántos identificó correctamente el modelo? Se calcula como TP / (TP + FN). Es prioritario cuando los falsos negativos son peligrosos, como detectar enfermedades donde no identificar un caso real es crítico.

F1-Score: Es la media armónica entre precision y recall, calculada como 2 × (precision × recall) / (precision + recall). Proporciona un balance entre ambas métricas y es especialmente útil con datos desbalanceados, penalizando significativamente cuando hay grandes diferencias entre precision y recall.

La elección entre estas métricas depende del contexto del problema: usa precision cuando minimizar falsos positivos es prioritario, recall cuando minimizar falsos negativos es crítico, y F1-score cuando necesitas un balance equilibrado entre ambos.

Ejemplos

  • Ejemplo:
    En un modelo de detección de spam: si tienes 100 emails y el modelo clasifica 10 como spam (8 correctos, 2 incorrectos) y 90 como legítimos (85 correctos, 5 incorrectos), entonces Accuracy = 93%, Precision = 80% (8 de 10 predicciones spam fueron correctas), Recall = 61.5% (8 de 13 spams reales fueron detectados), y F1-Score = 0.70 (balance entre ambas).
  • Ejemplo:
    En diagnóstico de cáncer: un modelo con Accuracy del 97% podría ser engañoso si solo predice "sin cáncer" en la mayoría de casos. Con Precision del 80% y Recall del 88%, el F1-Score de 0.84 revela un mejor balance: cuando dice que hay cáncer, acierta el 80% de veces, y detecta el 88% de los casos reales.
  • Ejemplo:
    En clasificación de fraude bancario: Precision alta (95%) significa que pocas transacciones legítimas se bloquean incorrectamente, mientras que Recall alta (90%) asegura que se detectan la mayoría de fraudes reales. El F1-Score combina ambas preocupaciones en una métrica única.

Preguntas frecuentes

¿Por qué no usar solo Accuracy para evaluar un modelo?
Accuracy puede ser engañosa con datos desbalanceados. Por ejemplo, si el 99% de los datos son negativos, un modelo que siempre predice "negativo" obtendría 99% de accuracy pero sería completamente inútil. Las otras métricas revelan este problema al mostrar que precision y recall serían muy bajos.
¿Cuándo debo priorizar Precision sobre Recall?
Cuando los falsos positivos son costosos. En marketing, enviar publicidad a usuarios que no están interesados (falso positivo) es caro. En diagnósticos, un falso positivo causa ansiedad innecesaria. En estos casos, una precision alta es más importante que un recall alto.
¿Qué significa un F1-Score de 0.84?
Un F1-Score de 0.84 indica un buen balance entre precision y recall (en escala 0-1, donde 1 es perfecto). Significa que el modelo tiene un desempeño sólido en ambas dimensiones sin sacrificar una por la otra. Es especialmente valioso en problemas con datos desbalanceados donde necesitas confianza en ambas métricas.

SINÓNIMOS

También conocido como: Métricas de evaluación de clasificación, Indicadores de desempeño de modelos, Métricas de rendimiento predictivo

ÚLTIMA REVISIÓN

Actualizado el: 10/12/2025