Stemming

¿Qué es Stemming?

Dejando de lado el problema con las palabras vacías, a las que no se puede considerar por obvias razones, tenemos el caso de las palabras derivadas del mismo lema, a las que se les relaciona con un contenido semántico muy próximo.

Las posibles variaciones de los derivados, con otras formas modificadas (alteraciones en género y número), todo esto produce que sea necesario agrupar todas estas variantes, de lo contrario puede ocurrir una dispersión en el cálculo de frecuencias de estos términos y hacer más difícil la comparación de consultas y documentos.

Esta operación se conoce como stemming o lematización, se trata de hallar el lema de las palabras y no tiene que tener significado. Este depende fuertemente del idioma al que se le quiere encontrar documentos o consultas, por esto es difícil aplicar algoritmos diseñados en un idioma para recuperar información de otra lengua diferente. Aun así se han propuesto técnicas independientes del idioma como lo son los n-gramas.

El stemming comienza a estudiarse en los años 60, para reducir los tamaños de los índices, pudiendo alcanzar factores de compresión del 50% almacenando lexemas en vez de términos, además como una forma de normalizar los términos, también como una forma de expandir las consultas, añadiendo formas modificadas o derivadas de las palabras a documentos y consultas.

Entre las aportaciones más conocidas encontramos el algoritmo propuesto por Lovin en 1968, el cual, de alguna manera, está en la base de algoritmos y propuestas posteriores, como los de Dawson, Porter y Paice. Aunque buena parte de los trabajos están orientados a su uso con documentos en inglés, es posible encontrar propuestas y algoritmos para lenguas específicas; entre ellas el propio latín, a pesar de ser una lengua muerta, el malayo, el francés, el árabe, neerlandés, esloveno o griego.

En cuanto al español, se aplicaron diversos mecanismos de stemming en operaciones de Recuperación de la Información en algunas de las conferencias TREC (Text REtrieval Conference). En general, estas aplicaciones consistieron en la utilización de los mismos algoritmos que para el inglés, aunque con sufijos y reglas para el español.

Independientemente de los algoritmos aplicados, y de su ajuste al idioma español, el conocimiento gramatical implementado (listas de sufijos, reglas de aplicación, etc.) era bastante pobre. Desde el punto de vista del procesamiento de lenguaje, se han desarrollado en los últimos años varios lematizadores y analizadores morfológicos para el español; entre ellos, las herramientas COES, puestas a disposición del público por sus autores bajo licencia GNU 1.

Los términos pueden ser lematizados durante la indexación o durante la búsqueda. Si se hiciera durante la búsqueda es que no se pierde información sobre los términos completos. La desventaja es por razones de eficiencia ya que requiere muchos recursos en el momento de la búsqueda. La ventaja de hacerlo durante la indexación es la poca demanda de recursos en el momento de la búsqueda porque estos ya están lematizados, los índices se comprimen y mejora la formulación las consultas. La desventaja de lematizar con la indexación es que se pierde información sobre términos completos.

Existen algoritmos para lematizar automáticos y manuales. Dentro de los automáticos se encuentra “Busqueda en Tabla”, “Eliminacion de Afijos”, “Variedad de Sucesores” y “N-Gramas”.