Escuela de Ciencias de la Computación e Informatica
CI-2414 Recuperación de Información
¿Qué es Stemming?
Dejando de lado el problema con las palabras vacĆas, a las que no se puede considerar por obvias razones, tenemos el caso de las palabras derivadas del mismo lema, a las que se les relaciona con un contenido semĆ”ntico muy próximo.
Las posibles variaciones de los derivados, con otras formas modificadas (alteraciones en gĆ©nero y nĆŗmero), todo esto produce que sea necesario agrupar todas estas variantes, de lo contrario puede ocurrir una dispersión en el cĆ”lculo de frecuencias de estos tĆ©rminos y hacer mĆ”s difĆcil la comparación de consultas y documentos.
Esta operación se conoce como stemming o lematización, se trata de hallar el lema de las palabras y no tiene que tener significado. Este depende fuertemente del idioma al que se le quiere encontrar documentos o consultas, por esto es difĆcil aplicar algoritmos diseƱados en un idioma para recuperar información de otra lengua diferente. Aun asĆ se han propuesto tĆ©cnicas independientes del idioma como lo son los n-gramas.
El stemming comienza a estudiarse en los aƱos 60, para reducir los tamaƱos de los Ćndices, pudiendo alcanzar factores de compresión del 50% almacenando lexemas en vez de tĆ©rminos, ademĆ”s como una forma de normalizar los tĆ©rminos, tambiĆ©n como una forma de expandir las consultas, aƱadiendo formas modificadas o derivadas de las palabras a documentos y consultas.
Entre las aportaciones mĆ”s conocidas encontramos el algoritmo propuesto por Lovin en 1968, el cual, de alguna manera, estĆ” en la base de algoritmos y propuestas posteriores, como los de Dawson, Porter y Paice. Aunque buena parte de los trabajos estĆ”n orientados a su uso con documentos en inglĆ©s, es posible encontrar propuestas y algoritmos para lenguas especĆficas; entre ellas el propio latĆn, a pesar de ser una lengua muerta, el malayo, el francĆ©s, el Ć”rabe, neerlandĆ©s, esloveno o griego.
ā

En cuanto al español, se aplicaron diversos mecanismos de stemming en operaciones de Recuperación de la Información en algunas de las conferencias TREC (Text REtrieval Conference). En general, estas aplicaciones consistieron en la utilización de los mismos algoritmos que para el inglés, aunque con sufijos y reglas para el español.

Independientemente de los algoritmos aplicados, y de su ajuste al idioma español, el conocimiento gramatical implementado (listas de sufijos, reglas de aplicación, etc.) era bastante pobre. Desde el punto de vista del procesamiento de lenguaje, se han desarrollado en los últimos años varios lematizadores y analizadores morfológicos para el español; entre ellos, las herramientas COES, puestas a disposición del público por sus autores bajo licencia GNU 1.

Los tĆ©rminos pueden ser lematizados durante la indexación o durante la bĆŗsqueda. Si se hiciera durante la bĆŗsqueda es que no se pierde información sobre los tĆ©rminos completos. La desventaja es por razones de eficiencia ya que requiere muchos recursos en el momento de la bĆŗsqueda. La ventaja de hacerlo durante la indexación es la poca demanda de recursos en el momento de la bĆŗsqueda porque estos ya estĆ”n lematizados, los Ćndices se comprimen y mejora la formulación las consultas. La desventaja de lematizar con la indexación es que se pierde información sobre tĆ©rminos completos.
ā
Existen algoritmos para lematizar automĆ”ticos y manuales. Dentro de los automĆ”ticos se encuentra āBusqueda en Tablaā, āEliminacion de Afijosā, āVariedad de Sucesoresā y āN-Gramasā.
