Expresiones Regulares en Python: Domina la Manipulación de Texto

Las expresiones regulares (regex) son una herramienta poderosa para la manipulación de texto. Permiten buscar, validar y reemplazar patrones específicos dentro de cadenas de caracteres. En Python, el módulo re proporciona el soporte necesario para trabajar con regex. Este artículo te guiará desde los conceptos básicos hasta ejemplos prácticos y casos de uso reales, para que puedas dominar la manipulación de texto con expresiones regulares.

Aprender a utilizar expresiones regulares te abrirá un mundo de posibilidades en el procesamiento de datos, validación de entradas de usuario, análisis de logs y mucho más. ¡Prepárate para convertirte en un experto en regex con Python!

Introducción a Expresiones Regulares

Las expresiones regulares son secuencias de caracteres que definen un patrón de búsqueda. En esencia, son como comodines súper vitaminados para encontrar texto específico.

Componentes clave:

Literales: Caracteres que coinciden exactamente con su valor (ej: 'a' coincide con la letra ‘a’).
Metacaracteres: Símbolos con significados especiales (ej: '.' coincide con cualquier carácter).
Cuantificadores: Especifican cuántas veces debe aparecer un patrón (ej: '*' coincide con cero o más repeticiones).

Metacaracteres básicos:

. (punto): Coincide con cualquier carácter individual, excepto el salto de línea.
^ (caret): Coincide con el inicio de la cadena.
$ (dólar): Coincide con el final de la cadena.
[] (corchetes): Define una clase de caracteres (ej: [a-z] coincide con cualquier letra minúscula).
[^] (corchetes con caret): Define una clase de caracteres negada (ej: [^0-9] coincide con cualquier carácter que no sea un dígito).
| (barra vertical): Indica una alternativa (ej: a|b coincide con ‘a’ o ‘b’).
() (paréntesis): Agrupa patrones.

Cuantificadores:

* (asterisco): Coincide con cero o más repeticiones del patrón anterior.
+ (más): Coincide con una o más repeticiones del patrón anterior.
? (interrogación): Coincide con cero o una repetición del patrón anterior.
{n} (llaves con un número): Coincide con exactamente n repeticiones del patrón anterior.
{n,} (llaves con un número y coma): Coincide con n o más repeticiones del patrón anterior.
{n,m} (llaves con dos números separados por coma): Coincide con entre n y m repeticiones del patrón anterior.

Patrones Más Comunes

Dominar las expresiones regulares implica conocer los patrones más comunes y cómo utilizarlos eficazmente. Aquí algunos de los más útiles:

\d: Coincide con cualquier dígito (0-9).
\w: Coincide con cualquier carácter alfanumérico (a-z, A-Z, 0-9, y _).
\s: Coincide con cualquier espacio en blanco (espacio, tabulación, salto de línea).
[a-z]: Coincide con cualquier letra minúscula.
[A-Z]: Coincide con cualquier letra mayúscula.
[0-9]: Coincide con cualquier dígito.
[aeiou]: Coincide con cualquier vocal minúscula.

Ejemplos:

\d+: Coincide con uno o más dígitos (un número entero).
\w+: Coincide con una o más letras, números o guiones bajos (una palabra).
\s+: Coincide con uno o más espacios en blanco.
[A-Za-z]+: Coincide con una o más letras (una palabra sin números ni símbolos).
[0-9]{3}-[0-9]{2}-[0-9]{4}: Coincide con un formato de fecha (ej: 123-45-6789).

Clases de caracteres predefinidas: Python ofrece atajos para algunas clases de caracteres comunes:

\d es equivalente a [0-9]
\w es equivalente a [a-zA-Z0-9_]
\s es equivalente a [ \t\n\r\f\v] (espacio, tabulación, nueva línea, retorno de carro, avance de página, tabulación vertical)

Ejemplos con re en Python

El módulo re en Python proporciona funciones para trabajar con expresiones regulares. Aquí te mostramos cómo usarlas:

Funciones principales:

re.search(patrón, cadena): Busca la primera ocurrencia del patrón en la cadena. Retorna un objeto Match si encuentra una coincidencia, o None si no la encuentra.
re.match(patrón, cadena): Intenta hacer coincidir el patrón al principio de la cadena. Retorna un objeto Match si tiene éxito, o None si no.
re.findall(patrón, cadena): Encuentra todas las ocurrencias no superpuestas del patrón en la cadena. Retorna una lista de cadenas que coinciden.
re.sub(patrón, reemplazo, cadena): Reemplaza todas las ocurrencias del patrón en la cadena con el reemplazo especificado. Retorna la nueva cadena.
re.compile(patrón): Compila el patrón en un objeto de expresión regular, que puede ser utilizado para múltiples operaciones. Esto puede mejorar el rendimiento si vas a usar el mismo patrón varias veces.

Ejemplos de código:


import re

# Buscar un número en una cadena
cadena = "Tengo 123 manzanas y 45 naranjas"
patron = r"\d+"
resultado = re.search(patron, cadena)
if resultado:
 print("Encontrado:", resultado.group(0))

# Encontrar todas las palabras en una cadena
cadena = "Esta es una cadena de ejemplo"
patron = r"\w+"
resultado = re.findall(patron, cadena)
print("Palabras encontradas:", resultado)

# Reemplazar todas las vocales por *
cadena = "Hola Mundo"
patron = r"[aeiouAEIOU]"
resultado = re.sub(patron, "*", cadena)
print("Cadena modificada:", resultado)

Explicación del código:

r"\d+": La r antes de la cadena del patrón indica una cadena raw, lo que evita la necesidad de escapar las barras invertidas.
resultado.group(0): Retorna la cadena que coincide con todo el patrón.
re.findall retorna una lista con todas las coincidencias.
re.sub reemplaza las coincidencias con el texto especificado.

Casos de Uso en la Vida Real

Las expresiones regulares tienen una amplia gama de aplicaciones en el mundo real.

Validación de datos:

Verificar que una dirección de correo electrónico tenga el formato correcto.
Validar números de teléfono.
Asegurar que una contraseña cumpla con ciertos criterios (longitud, caracteres especiales, etc.).

Extracción de información:

Extraer direcciones IP de un archivo de registro.
Obtener todos los enlaces de una página web.
Identificar fechas en un documento de texto.

Manipulación de texto:

Reemplazar todas las ocurrencias de una palabra por otra.
Eliminar etiquetas HTML de un texto.
Formatear números de teléfono.

Ejemplo práctico: Validación de correo electrónico

Un patrón común para validar direcciones de correo electrónico es:

^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$

Este patrón verifica que la dirección tenga:

Una parte local (antes de la @) que contiene letras, números, puntos, guiones bajos, porcentajes, signos más o guiones.
Un símbolo @.
Un nombre de dominio que contiene letras, números, puntos o guiones.
Un punto.
Un dominio de nivel superior de al menos dos letras.


import re

def validar_email(email):
 patron = r"^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$"
 if re.match(patron, email):
 return True
 else:
 return False

email = "test@example.com"
if validar_email(email):
 print("Email válido")
else:
 print("Email inválido")

Las expresiones regulares son una herramienta indispensable para cualquier programador. Aunque la sintaxis puede parecer intimidante al principio, la práctica constante y la comprensión de los conceptos clave te permitirán dominar esta técnica y aplicarla en una amplia variedad de escenarios. Recuerda que existen numerosas herramientas online para probar tus expresiones regulares y entender mejor su comportamiento. ¡No dudes en experimentar y explorar todas las posibilidades que ofrecen las regex!