Escuela de Ciencias de la Computación e Informatica
CI-2414 Recuperación de Información

Eliminación de Afijos
Eliminación de Afijos

BĆŗsqueda en Tabla
Para valorar un lematizador se toma en cuenta primeramente su exactitud, hay dos formas en que un lematizador pueda ser inexacto: Over-Stemming (Hiperlematización) y Under-Stemming (Hipolematización). La primera se refiere al hecho de que al eliminar demasiados caracteres del término durante el proceso se pueden juntar términos que no estÔn relacionados, causa la recuperación de documentos no relevantes. El segundo se refiere mÔs bien que al eliminar menos caracteres de lo debido, impide que se junten términos relacionados, causando la no recuperación de documentos relevantes.

Otros factores que influyen en la valoración de un lematizador es la efectividad de la recuperación y el nivel de compresión de los Ćndices .
Algoritmos de Lematización
Es un algoritmo bastante sencillo, consiste en almacenar en un tabla los tĆ©rminos Ćndice con sus propios lexemas.

Los tĆ©rminos de las consultas y de los Ćndices podrĆ”n ser lematizados a trĆ”ves de bĆŗsquedas en la tabla. Usando un Ć”rbol-B o una dispersión estas bĆŗsquedas serĆ”n muy rĆ”pidas.

Las principales ventajas como anteriormente se mencionó es que es muy sencillo y muy rÔpido usando Ôrbol-B o dispersión.

Las desventajas son: tener que construir la tabla, puede provocar una sobrecarga de almacenamiento, se complica para palabras especificas y no existen estƔndares para las tablas.
Se trata de eliminar prefijos y sufijos de los términos por medio de este algoritmo, dejando asà solo sus lexemas y transformÔndolo en ocasiones.

Se aplican ciertas reglas a las palabras ā dĆ”ndonos su firma comĆŗn. Se basa en reglas gramaticales aplicadas al revĆ©s.
ā
El algoritmo mƔs conocido y usado es el de PORTER aplicando de 30 a 40 reglas sobre las palabras. Este algoritmo es usado para el idioma inglƩs y solo elimina sufijos.

Las ventajas que presenta es que con pocas reglas se obtiene gran eficiencia y ante una nueva palabra se puede sacar su raĆz fĆ”cilmente.

Las desventajas que presenta es que primero depende del idioma, segundo hay que construir una tabla de reglas, y por Ćŗltimo el conjunto de reglas es critico en la calidad del lematizador.
Es un algoritmo del tipo heurĆstico basado en el mĆ©todo de los bigramas compartidos. Aunque estĆ” incluido como mĆ©todo de lamatización aunque en realidad no se produce una lemarización como tal. Lo que pasa es que se calculan medidas de asociación entre pares de tĆ©rminos basĆ”ndose en los bigramas Ćŗnicos compartidos. Calculados los bigramas Ćŗnicos se calcula una medida de similitud basada en el coeficiente de Dice: S = 2*C/(A+B)
ā
Se forma una matriz de similitud aplicando la medida de similitud para todos los pares de tƩrminos de la base de datos. Una vez la dispuesta se asocian los tƩrminos usando alguno de los mƩtodos de agrupamiento conocidos.
ā
Se pueden utilizar tĆ©cnicas clĆ”sicas de manipulación y almacenamiento de matrices escasas. Usando un umbral de similitud de 0.6, la mayorĆa de agrupamientos son correctos y en casi ninguno se producen asociaciones falsas.

Entre sus ventajas se ouede citar que agrupa palabras similares, aĆŗn con prefijos y sufijos. la mayorĆa de los agrupamientos que se forman son correctos con un umbral de 0.6. AdemĆ”s es muy sensillo y fĆ”cil.

La principal desventaja es que como tal no lematiza pero es considerado como un mƩtodo entonces esto puede producir confusiones.
Esta tĆ©cnica consiste en agrupar palabras con la misma raĆz, eliminando los sufijos de las palabras.
ā
Estos algoritmos estĆ”n basados en trabajos de lingüĆstica estructural que intentan determinar los lĆmites de las palabras y los morfemas basĆ”ndose en la distribución de fonemas en un gran cuerpo de pronunciaciones. Pueden tambiĆ©n usar letras en lugar de fonemas y el cuerpo detexto en lugar de pronunciaciones transcritas fonĆ©ticamente.

La variedad de sucesores de una cadena es el nĆŗmero de caracteres diferentes que siguen a esa cadena en las palabras de un cuerpo de texto.

Una vez calculado la variedad de sucesores para una palabra dad se puede usar esta información para segmentar la palabra con una de cuatro formas de hacerlo:

MĆ©todo del valor de corte: Se selecciona un valor de corte para las variedades de sucesores y se identifica un lĆmite cada vez que se alcanza ese valor de corte.

MƩtodo de los picos y valles: Se hace el corte de segmento despuƩs de los caracteres cuya variedad de sucesores excede a la del carƔcter que los precede y a la del que lo sigue.

MƩtodo de palabra completa: Se hace el corte despuƩs de un segmento si Ʃste es una palabra completa en el corpus.

MĆ©todo de la entropĆa: Aprovecha la distribución de las variedades de sucesores. Usando su ecuación se calculan las entropĆas de una palabra, se selecciona un valor de corte y se identifican los lĆmites de segmento cuando se supera este valor de corte.

Para seleccionar el lexema los investigadores proponen que si el primer segmento aparece en menos o igual de 12 palabras del corpus entonces el primero segmento es el lexema, si no, el segundo es el lexema.

Las ventajas es que son sencillos, fÔciles y trabaja de forma automÔtica obteniendo la lematización del corpus de texto.
ā
El principal problema es la selección del valor de corte para obtener la raĆz ya que si es pequeƱo se harĆ”n cortes incorrectos y si es demasiado grande se perderĆ”n cortes correctos. AdemĆ”s este algoritmo sólo elimina los sufijos de las palabras y es un poco mĆ”s el trabajo, computacionalmente hablando.

N-Gramas

Variedad de Sucesores
