Machine Learning con Scikit-Learn: De Cero a Experto

Bienvenido al fascinante mundo del Machine Learning con Scikit-Learn. En este artículo, te guiaremos paso a paso desde los conceptos más básicos hasta técnicas avanzadas, permitiéndote construir y optimizar tus propios modelos predictivos.

Scikit-Learn es una de las bibliotecas de Machine Learning más populares y versátiles en Python. Su facilidad de uso, su amplia gama de algoritmos y su excelente documentación la convierten en la herramienta ideal tanto para principiantes como para expertos.

Prepárate para un viaje emocionante donde aprenderás a:

Comprender los fundamentos del Machine Learning.
Implementar y evaluar diversos modelos de clasificación y regresión.
Afinar tus modelos para obtener el máximo rendimiento.
Aplicar tus conocimientos a problemas del mundo real.

¡Empecemos!

Conceptos Básicos de Machine Learning

Antes de sumergirnos en el código, es crucial comprender algunos conceptos fundamentales del Machine Learning.

Aprendizaje Supervisado: En este tipo de aprendizaje, el algoritmo aprende a partir de un conjunto de datos etiquetados, es decir, datos que contienen tanto las características (variables independientes) como la variable objetivo (variable dependiente) que queremos predecir. Ejemplos comunes son la clasificación (predecir una categoría) y la regresión (predecir un valor continuo).

Aprendizaje No Supervisado: En este caso, el algoritmo trabaja con datos no etiquetados y busca patrones o estructuras ocultas. El clustering (agrupamiento de datos similares) y la reducción de dimensionalidad son ejemplos de aprendizaje no supervisado.

Conjunto de Entrenamiento y Conjunto de Prueba: Para evaluar el rendimiento de un modelo, dividimos nuestros datos en dos conjuntos: el conjunto de entrenamiento, que se utiliza para entrenar el modelo, y el conjunto de prueba, que se utiliza para evaluar su capacidad de generalización a datos no vistos previamente.

Características (Features): Son las variables independientes que utilizamos para predecir la variable objetivo. Por ejemplo, si queremos predecir el precio de una casa, las características podrían ser el tamaño, la ubicación y el número de habitaciones.

Variable Objetivo (Target): Es la variable dependiente que queremos predecir. En el ejemplo anterior, la variable objetivo sería el precio de la casa.

Algoritmos Comunes: Scikit-Learn ofrece una amplia variedad de algoritmos de Machine Learning, incluyendo:

Regresión Lineal: Para predecir valores continuos.
Regresión Logística: Para problemas de clasificación binaria.
Árboles de Decisión: Para clasificación y regresión, construyendo un modelo en forma de árbol.
Random Forest: Un conjunto de árboles de decisión que mejora la precisión y reduce el sobreajuste.
Support Vector Machines (SVM): Eficaz en espacios de alta dimensionalidad.
K-Nearest Neighbors (KNN): Clasifica un punto basándose en la clase de sus vecinos más cercanos.

Entrenamiento y Evaluación de Modelos

Una vez que comprendemos los conceptos básicos, podemos empezar a entrenar y evaluar modelos con Scikit-Learn.

Carga de Datos: Primero, necesitamos cargar nuestros datos. Scikit-Learn facilita esto con funciones como load_iris() para conjuntos de datos de ejemplo y funciones de Pandas como read_csv() para cargar datos desde archivos CSV.

División de Datos: Dividimos los datos en conjuntos de entrenamiento y prueba utilizando la función train_test_split().

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

En este ejemplo, X representa las características, y representa la variable objetivo, test_size=0.3 indica que el 30% de los datos se utilizará para la prueba, y random_state=42 asegura que la división sea reproducible.

Entrenamiento del Modelo: Seleccionamos un algoritmo y lo entrenamos con el conjunto de entrenamiento. Por ejemplo, para entrenar un modelo de regresión logística:

from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
model.fit(X_train, y_train)

Predicción: Una vez entrenado el modelo, podemos usarlo para hacer predicciones en el conjunto de prueba:

y_pred = model.predict(X_test)

Evaluación: Es crucial evaluar el rendimiento del modelo. Scikit-Learn ofrece varias métricas de evaluación, como:

Accuracy: Para clasificación (proporción de predicciones correctas).
Precision: Para clasificación (proporción de predicciones positivas correctas).
Recall: Para clasificación (proporción de casos positivos correctamente identificados).
F1-score: Una media ponderada de precision y recall.
Mean Squared Error (MSE): Para regresión (promedio de los errores al cuadrado).
R-squared: Para regresión (proporción de la varianza explicada por el modelo).

Ejemplo de evaluación:

from sklearn.metrics import accuracy_score, mean_squared_error

accuracy = accuracy_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)

print(f"Accuracy: {accuracy}")
print(f"Mean Squared Error: {mse}")

Optimización de Modelos con Grid Search

La optimización de modelos es un paso crucial para obtener el máximo rendimiento. Una técnica común es la búsqueda de cuadrícula (Grid Search).

Grid Search: Consiste en probar diferentes combinaciones de hiperparámetros (parámetros que no se aprenden durante el entrenamiento) y seleccionar la combinación que produce el mejor rendimiento en un conjunto de validación (generalmente un subconjunto del conjunto de entrenamiento).

Ejemplo con Grid Search y Random Forest:

from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier

# Definimos los hiperparámetros a probar
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [5, 10, 15],
    'min_samples_split': [2, 4, 6]
}

# Creamos el modelo
model = RandomForestClassifier(random_state=42)

# Creamos el objeto GridSearchCV
grid_search = GridSearchCV(model, param_grid, cv=3, scoring='accuracy')

# Realizamos la búsqueda
grid_search.fit(X_train, y_train)

# Obtenemos el mejor modelo
best_model = grid_search.best_estimator_

# Imprimimos los mejores hiperparámetros
print(f"Mejores hiperparámetros: {grid_search.best_params_}")

# Evaluamos el mejor modelo en el conjunto de prueba
y_pred = best_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy en el conjunto de prueba: {accuracy}")

En este ejemplo, estamos probando diferentes valores para n_estimators (número de árboles), max_depth (profundidad máxima de los árboles) y min_samples_split (número mínimo de muestras requeridas para dividir un nodo). cv=3 indica que estamos utilizando validación cruzada de 3 pliegues, y scoring='accuracy' especifica que estamos optimizando para la precisión.

Ejemplo de Predicción con Datos Reales

Para consolidar tus conocimientos, veamos un ejemplo completo de predicción con datos reales.

Dataset: Predicción de la supervivencia en el Titanic. Utilizaremos el famoso dataset del Titanic, que contiene información sobre los pasajeros del Titanic y si sobrevivieron o no.

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Cargamos los datos
data = pd.read_csv('titanic.csv')

# Preprocesamiento de datos
data['Sex'] = data['Sex'].map({'male': 0, 'female': 1})
data = data[['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare']].dropna()

# Separamos las características y la variable objetivo
X = data.drop('Survived', axis=1)
y = data['Survived']

# Dividimos los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Creamos y entrenamos el modelo
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Hacemos predicciones
y_pred = model.predict(X_test)

# Evaluamos el modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")

Explicación del código:

Cargamos los datos utilizando Pandas.
Preprocesamos los datos: convertimos la columna ‘Sex’ a numérica y eliminamos las filas con valores faltantes.
Separamos las características (X) y la variable objetivo (y).
Dividimos los datos en conjuntos de entrenamiento y prueba.
Creamos un modelo de Random Forest y lo entrenamos con el conjunto de entrenamiento.
Hacemos predicciones en el conjunto de prueba.
Evaluamos el modelo utilizando la métrica de accuracy.

Este es un ejemplo básico, pero puedes expandirlo explorando diferentes algoritmos, ajustando hiperparámetros y realizando un preprocesamiento más exhaustivo de los datos.

En este artículo, hemos recorrido un largo camino, desde los conceptos básicos del Machine Learning hasta la implementación y optimización de modelos con Scikit-Learn. Has aprendido a cargar datos, entrenar modelos, evaluar su rendimiento y afinarlos utilizando técnicas como Grid Search.

Recuerda que el Machine Learning es un campo en constante evolución, por lo que es importante seguir aprendiendo y experimentando. Scikit-Learn es una herramienta poderosa que te permite abordar una amplia variedad de problemas, y con la práctica y la dedicación, podrás convertirte en un experto en Machine Learning.

¡Te animo a seguir explorando, a construir tus propios modelos y a aplicar tus conocimientos a problemas del mundo real! El viaje del Machine Learning es un camino emocionante y gratificante.