Cómo Manejar Datos Desbalanceados en Machine Learning

En el fascinante mundo del Machine Learning, nos encontramos frecuentemente con desafíos que requieren un manejo cuidadoso para obtener modelos precisos y confiables. Uno de estos desafíos surge cuando trabajamos con datos desbalanceados, donde una clase tiene significativamente más instancias que otra. Este desequilibrio puede afectar gravemente el rendimiento de nuestros modelos, llevándolos a favorecer la clase mayoritaria e ignorar la minoritaria, que a menudo es la más importante (por ejemplo, la detección de fraudes o enfermedades raras).

En este artículo, exploraremos en profundidad cómo manejar datos desbalanceados de manera efectiva. Comenzaremos por entender qué significa exactamente tener un dataset desbalanceado y por qué es un problema. Luego, nos sumergiremos en las técnicas de sobremuestreo (oversampling) y submuestreo (undersampling), dos enfoques populares para equilibrar las clases. A continuación, veremos un ejemplo práctico con Python, utilizando bibliotecas como scikit-learn e imblearn, mostrando cómo implementar estas técnicas en código. Finalmente, analizaremos el impacto que estas estrategias tienen en el rendimiento del modelo, utilizando métricas adecuadas para evaluar resultados en datasets desbalanceados.

Prepárate para adquirir un conjunto de herramientas valiosas que te permitirán construir modelos de Machine Learning más robustos y precisos, incluso cuando te enfrentes a la realidad de los datos desbalanceados. ¡Comencemos!

¿Qué es un dataset desbalanceado?

Un dataset desbalanceado se caracteriza por tener una distribución desigual de las clases. Esto significa que una o más clases (la clase minoritaria) tienen significativamente menos ejemplos que otras clases (la clase mayoritaria). Esta disparidad puede ser problemática porque muchos algoritmos de Machine Learning están diseñados para funcionar mejor cuando las clases están aproximadamente balanceadas.

¿Por qué es un problema?

El problema principal es que los modelos tienden a favorecer la clase mayoritaria, ya que tienen más ejemplos para aprender de ella. Esto puede resultar en un modelo que predice bien la clase mayoritaria, pero falla al identificar la clase minoritaria. En muchos casos, la clase minoritaria es la más importante, como en la detección de fraudes, el diagnóstico de enfermedades raras o la identificación de fallos en equipos.

Ejemplos comunes de datasets desbalanceados:

Detección de fraude: Las transacciones fraudulentas son mucho menos comunes que las transacciones legítimas.
Diagnóstico médico: Las enfermedades raras afectan a un pequeño porcentaje de la población.
Mantenimiento predictivo: Los fallos en los equipos son menos frecuentes que el funcionamiento normal.
Clasificación de texto: Ciertas categorías de documentos pueden ser mucho menos comunes que otras.

Impacto en el modelo:

Sesgo hacia la clase mayoritaria: El modelo aprende a predecir la clase mayoritaria con alta precisión, pero tiene un rendimiento deficiente en la clase minoritaria.
Métricas de evaluación engañosas: La precisión (accuracy) puede ser alta, pero engañosa, ya que el modelo simplemente predice la clase mayoritaria en la mayoría de los casos.

Para ilustrar esto, imagina un modelo que predice si un paciente tiene una enfermedad rara. Si solo el 1% de los pacientes tiene la enfermedad, un modelo que siempre predice que el paciente no tiene la enfermedad tendrá una precisión del 99%. Sin embargo, este modelo es inútil porque no identifica a ningún paciente con la enfermedad.

Técnicas de sobremuestreo y submuestreo

Para abordar el problema de los datos desbalanceados, existen varias técnicas que se pueden aplicar. Las más comunes son el sobremuestreo (oversampling) y el submuestreo (undersampling).

Sobremuestreo (Oversampling):

El sobremuestreo consiste en aumentar el número de ejemplos de la clase minoritaria. Esto se puede hacer replicando ejemplos existentes (sobremuestreo aleatorio) o generando nuevos ejemplos sintéticos.

Sobremuestreo aleatorio: Simplemente duplica o replica ejemplos existentes de la clase minoritaria hasta que alcance un tamaño similar al de la clase mayoritaria. Es fácil de implementar, pero puede llevar al sobreajuste (overfitting), ya que el modelo aprende de ejemplos repetidos.
SMOTE (Synthetic Minority Oversampling Technique): Genera nuevos ejemplos sintéticos interpolando entre ejemplos existentes de la clase minoritaria. Para cada ejemplo de la clase minoritaria, SMOTE encuentra sus k vecinos más cercanos y crea nuevos ejemplos a lo largo de las líneas que conectan el ejemplo original con sus vecinos. Esto ayuda a evitar el sobreajuste al generar ejemplos nuevos en lugar de simplemente replicar los existentes.
ADASYN (Adaptive Synthetic Sampling Approach): Similar a SMOTE, pero genera más ejemplos sintéticos en regiones donde la clase minoritaria es más difícil de aprender. Identifica los ejemplos de la clase minoritaria que están rodeados por ejemplos de la clase mayoritaria y genera más ejemplos sintéticos en esas regiones.

Submuestreo (Undersampling):

El submuestreo consiste en reducir el número de ejemplos de la clase mayoritaria. Esto se puede hacer eliminando ejemplos aleatorios (submuestreo aleatorio) o utilizando algoritmos más sofisticados para seleccionar qué ejemplos eliminar.

Submuestreo aleatorio: Elimina aleatoriamente ejemplos de la clase mayoritaria hasta que alcance un tamaño similar al de la clase minoritaria. Es fácil de implementar, pero puede llevar a la pérdida de información, ya que se descartan ejemplos que podrían ser importantes para el modelo.
Tomek Links: Elimina ejemplos de la clase mayoritaria que forman

Ejemplo con Python

Vamos a ver un ejemplo práctico de cómo aplicar técnicas de sobremuestreo y submuestreo con Python utilizando las bibliotecas scikit-learn e imblearn.

Instalación de bibliotecas:

Primero, instala las bibliotecas necesarias:


pip install scikit-learn imblearn

Generación de datos desbalanceados:

Vamos a generar un dataset desbalanceado de ejemplo:


from sklearn.datasets import make_classification

X, y = make_classification(n_samples=1000, n_features=2, n_informative=2, n_redundant=0,
                           n_repeated=0, n_classes=2, weights=[0.9, 0.1], random_state=42)

En este código, make_classification genera un dataset con 1000 ejemplos, 2 características informativas y una proporción de clases de 90% para la clase mayoritaria y 10% para la clase minoritaria.

Sobremuestreo con SMOTE:

Ahora, vamos a aplicar la técnica de sobremuestreo SMOTE para equilibrar las clases:


from imblearn.over_sampling import SMOTE

smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, y)

SMOTE.fit_resample(X, y) aplica la técnica SMOTE al dataset y devuelve un nuevo dataset con las clases equilibradas.

Submuestreo con RandomUnderSampler:

También podemos aplicar la técnica de submuestreo aleatorio para equilibrar las clases:


from imblearn.under_sampling import RandomUnderSampler

rus = RandomUnderSampler(random_state=42)
X_resampled, y_resampled = rus.fit_resample(X, y)

RandomUnderSampler.fit_resample(X, y) aplica la técnica de submuestreo aleatorio al dataset y devuelve un nuevo dataset con las clases equilibradas.

Entrenamiento de un modelo:

Finalmente, podemos entrenar un modelo de Machine Learning con el dataset equilibrado. Por ejemplo, podemos usar un clasificador de Regresión Logística:


from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

X_train, X_test, y_train, y_test = train_test_split(X_resampled, y_resampled, test_size=0.3, random_state=42)

model = LogisticRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

Este código divide el dataset en conjuntos de entrenamiento y prueba, entrena un modelo de Regresión Logística con el conjunto de entrenamiento y evalúa el rendimiento del modelo con el conjunto de prueba utilizando la métrica classification_report.

Este es un ejemplo básico de cómo aplicar técnicas de sobremuestreo y submuestreo con Python. Puedes experimentar con diferentes técnicas y parámetros para encontrar la mejor combinación para tu dataset y problema específico.

Impacto en el rendimiento del modelo

El manejo de datos desbalanceados puede tener un impacto significativo en el rendimiento del modelo. Es crucial evaluar el rendimiento del modelo utilizando métricas adecuadas para datasets desbalanceados.

Métricas de evaluación:

La precisión (accuracy) no es una métrica adecuada para datasets desbalanceados, ya que puede ser engañosa. En su lugar, se deben utilizar métricas como:

Precisión (Precision): La proporción de ejemplos positivos predichos correctamente entre todos los ejemplos predichos como positivos.
Exhaustividad (Recall): La proporción de ejemplos positivos predichos correctamente entre todos los ejemplos positivos reales.
F1-score: La media armónica entre precisión y exhaustividad. Es una métrica útil cuando se busca un equilibrio entre precisión y exhaustividad.
AUC-ROC (Area Under the Receiver Operating Characteristic curve): Mide la capacidad del modelo para discriminar entre las clases. Un valor de AUC-ROC cercano a 1 indica un buen rendimiento, mientras que un valor cercano a 0.5 indica un rendimiento similar al azar.
Curva de precisión-recall (Precision-Recall curve): Muestra el equilibrio entre precisión y exhaustividad para diferentes umbrales de clasificación.

Impacto de las técnicas de sobremuestreo y submuestreo:

Sobremuestreo: Puede mejorar la exhaustividad (recall) del modelo, ya que aumenta el número de ejemplos de la clase minoritaria. Sin embargo, puede reducir la precisión (precision) si el modelo aprende de ejemplos sintéticos que no son representativos de la clase minoritaria real.
Submuestreo: Puede mejorar la precisión (precision) del modelo, ya que reduce el sesgo hacia la clase mayoritaria. Sin embargo, puede reducir la exhaustividad (recall) si el modelo pierde información importante al eliminar ejemplos de la clase mayoritaria.

Consideraciones adicionales:

Selección de la técnica adecuada: La elección de la técnica de sobremuestreo o submuestreo depende del dataset y del problema específico. Es importante experimentar con diferentes técnicas y evaluar el rendimiento del modelo utilizando métricas adecuadas para datasets desbalanceados.
Ajuste de parámetros: Muchas técnicas de sobremuestreo y submuestreo tienen parámetros que se pueden ajustar para optimizar el rendimiento del modelo.
Validación cruzada: Es importante utilizar la validación cruzada para evaluar el rendimiento del modelo de manera robusta. Al aplicar técnicas de sobremuestreo o submuestreo, es importante aplicarlas solo al conjunto de entrenamiento en cada pliegue de la validación cruzada para evitar el sesgo.

En este artículo, hemos explorado el problema de los datos desbalanceados en Machine Learning y hemos visto cómo puede afectar el rendimiento de los modelos. Hemos analizado las técnicas de sobremuestreo y submuestreo como soluciones para equilibrar las clases y mejorar el rendimiento del modelo en la clase minoritaria.

Hemos visto un ejemplo práctico con Python, utilizando las bibliotecas scikit-learn e imblearn, mostrando cómo implementar estas técnicas en código. También hemos discutido el impacto que estas estrategias tienen en el rendimiento del modelo, utilizando métricas adecuadas para evaluar resultados en datasets desbalanceados.

Es importante recordar que no existe una solución única para el problema de los datos desbalanceados. La elección de la técnica adecuada depende del dataset y del problema específico. Es fundamental experimentar con diferentes técnicas, ajustar los parámetros y evaluar el rendimiento del modelo utilizando métricas adecuadas para datasets desbalanceados.

Con las herramientas y conocimientos adquiridos en este artículo, estarás mejor preparado para enfrentar el desafío de los datos desbalanceados y construir modelos de Machine Learning más robustos y precisos.

¡No dudes en seguir explorando y experimentando con estas técnicas para mejorar tus habilidades en el mundo del Machine Learning!