Le llega el momento a todo programador no anglo-parlante de enfrentarse a la difícil tarea de escribir una expresión regular que acepte tildes, cedillas y virgulillas. Difícil porque las expresiones regulares fueron creadas, como tantas otras herramientas, cuando ASCII era la única codificación existente y por lo tanto funciona con un numero de caracteres muy limitado para el mundo internacionalizado de hoy en día. Asumamos que queremos limpiar una cadena de texto quitando todo lo que no sean caracteres alfanuméricos. La respuesta obvia sería:

preg_replace('/[\w]/ui', '', $input);

Pero \w realmente equivale a [a-z0-9_] y no nos vale. Aunque en teoría la documentación de php dice que en algunos locales \w inclute letras acentuadas yo no he conseguido que pille las del español. La siguiente respuesta común es esta:

preg_replace ('/[a-z0-9áéíóúç]/ui', '', $input);

Pero esto no sólo es una guarrada enorme sino que tampoco servirá cuando querramos añadir soporte para más idiomas y al final terminaremos con una cadena de proporciones épicas intentando incluir todas la variantes de caracteres acentuados de todos los idiomas, por no hablar de todos los alfabetos.

Aunque no lo parezca existe una solución elegante y simple. Resulta que la codificación Unicode asigna una serie de propiedades a todos los caracteres, desde algunos tan obvios como si un caracter es alfabético, si es mayúscula o minúscula o si es un número hasta otros más extraños como si tiene forma cuadrada o es de uso histórico. El que a nosotros nos interesa en este caso es la propiedad alfabética. Como podéis ver no solo aparecen listadas todas las letras normales sino que también aparecen todas las letras acentuadas habidas y por haber.

Por suerte la extensión PCRE de PHP nos deja utilizar una selección limitada (pero suficiente) de propiedades Unicode en nuestras expresiones regulares combinando el caracter de control \p con el identificador de la propieda que queramos, en este caso L.

preg_replace ('/[\pL0-9]/ui', '', $input);

Hay que tener en cuenta que utilizar las propiedades unicode en una expresión regular es significantemente más lento que utilizar rangos normales, con lo cual no es recomendable usarlas para operaciones habituales o que se repitan mucho.

 

One Response to Unicode y expresiones regulares (en PHP)

  1. Luis says:

    Hola intento hacer una expresion regular pero no tengo mucha experiencia con esto, tal vez le puedas echar un ojo a mi expresion y decirme en que me equivoco.

    !/^[\:Po]|[\:Sm]|[\:Sc]|[\:Pc]+$/

    Lo que intento es ver que lo ingresado sea distinto a signos matematicos, algunos signos especiales, signos de moneda y guion bajo. pero aun no doy con la expresion correcta.
    Saludos.

Leave a Reply

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Set your Twitter account name in your settings to use the TwitterBar Section.