top of page

¿Qué es Stemming?

Dejando de lado el problema con las palabras vacías, a las que no se puede considerar por obvias razones, tenemos el caso de las palabras derivadas del mismo lema, a las que se les relaciona con un contenido semÔntico muy próximo.

Las posibles variaciones de los derivados, con otras formas modificadas (alteraciones en género y número), todo esto produce que sea necesario agrupar todas estas variantes, de lo contrario puede ocurrir una dispersión en el cÔlculo de frecuencias de estos términos y hacer mÔs difícil la comparación de consultas y documentos.

Esta operación se conoce como stemming o lematización, se trata de hallar el lema de las palabras y no tiene que tener significado. Este depende fuertemente del idioma al que se le quiere encontrar documentos o consultas, por esto es difícil aplicar algoritmos diseñados en un idioma para recuperar información de otra lengua diferente. Aun así se han propuesto técnicas independientes del idioma como lo son los n-gramas.


El stemming comienza a estudiarse en los aƱos 60, para reducir los tamaƱos de los Ć­ndices, pudiendo alcanzar factores de compresión del 50% almacenando lexemas en vez de tĆ©rminos,  ademĆ”s como una forma de normalizar los tĆ©rminos, tambiĆ©n como una forma de expandir las consultas, aƱadiendo formas modificadas o derivadas de las palabras a documentos y consultas.


Entre las aportaciones mĆ”s conocidas encontramos el algoritmo propuesto por Lovin en 1968, el cual, de alguna manera, estĆ” en la base de algoritmos y propuestas posteriores, como los de Dawson, Porter  y Paice. Aunque buena parte de los trabajos estĆ”n orientados a su uso con documentos en inglĆ©s, es posible encontrar propuestas y algoritmos para lenguas especĆ­ficas; entre ellas el propio latĆ­n, a pesar de ser una lengua muerta, el malayo, el francĆ©s, el Ć”rabe, neerlandĆ©s, esloveno o griego.

​
 

En cuanto al español, se aplicaron diversos mecanismos de stemming en operaciones de Recuperación de la Información en algunas de las conferencias TREC (Text REtrieval Conference). En general, estas aplicaciones consistieron en la utilización de los mismos algoritmos que para el inglés, aunque con sufijos y reglas para el español.

Independientemente de los algoritmos aplicados, y de su ajuste al idioma español, el conocimiento gramatical implementado (listas de sufijos, reglas de aplicación, etc.) era bastante pobre. Desde el punto de vista del procesamiento de lenguaje, se han desarrollado en los últimos años varios lematizadores y analizadores morfológicos para el español; entre ellos, las herramientas COES, puestas a disposición del público por sus autores bajo licencia GNU 1.



Los tĆ©rminos pueden ser lematizados durante la indexación o durante la bĆŗsqueda. Si se hiciera durante la bĆŗsqueda es que no se pierde información sobre los tĆ©rminos completos. La desventaja es por razones de eficiencia ya que requiere muchos recursos en el momento de la bĆŗsqueda. La ventaja de hacerlo durante la indexación es la poca demanda de recursos en el momento de la bĆŗsqueda porque estos ya estĆ”n lematizados, los Ć­ndices se comprimen y mejora la formulación las consultas. La desventaja de lematizar con  la indexación  es que se pierde información sobre tĆ©rminos completos.

​

Existen algoritmos para lematizar automĆ”ticos y manuales. Dentro de los automĆ”ticos se encuentra ā€œBusqueda en Tablaā€, ā€œEliminacion de Afijosā€, ā€œVariedad de Sucesoresā€ y ā€œN-Gramasā€.

bottom of page