top of page

Eliminación de Afijos

Eliminación de Afijos

BĆŗsqueda en Tabla

Para valorar un lematizador se toma en cuenta primeramente su exactitud, hay dos formas en que un lematizador pueda ser inexacto: Over-Stemming (Hiperlematización) y Under-Stemming (Hipolematización). La primera se refiere al hecho de que al eliminar demasiados  caracteres del tĆ©rmino durante el proceso se pueden juntar tĆ©rminos que no estĆ”n relacionados, causa la recuperación de documentos no relevantes. El segundo se refiere mĆ”s bien que al eliminar menos caracteres de lo debido, impide que se junten tĆ©rminos relacionados, causando la no recuperación de documentos relevantes.



Otros factores que influyen en la valoración de un lematizador es la efectividad de la recuperación y el nivel de compresión de los índices .

Algoritmos de Lematización

Es un algoritmo bastante sencillo, consiste en almacenar en un tabla los tĆ©rminos Ć­ndice con sus propios lexemas. 



Los tĆ©rminos de las consultas y de los Ć­ndices podrĆ”n ser lematizados a trĆ”ves de bĆŗsquedas  en la tabla. Usando un Ć”rbol-B o una dispersión estas bĆŗsquedas serĆ”n muy rĆ”pidas.



Las principales ventajas como anteriormente se mencionó es que es muy sencillo y muy rÔpido usando Ôrbol-B o dispersión.



Las desventajas son:  tener que  construir la tabla, puede provocar una sobrecarga de almacenamiento, se complica para palabras especificas y no existen estĆ”ndares para las tablas.

 

Se trata de eliminar prefijos y sufijos de los tĆ©rminos por medio de este algoritmo, dejando asĆ­ solo sus lexemas y transformĆ”ndolo en ocasiones.



Se aplican ciertas reglas a las palabras ​ dĆ”ndonos su firma comĆŗn. Se basa en reglas gramaticales aplicadas al revĆ©s. 

​

El algoritmo mĆ”s conocido y usado es el de PORTER aplicando de 30 a 40 reglas sobre las palabras. Este algoritmo es usado para el idioma inglĆ©s y solo elimina sufijos.



Las ventajas que presenta es que con pocas reglas se obtiene gran eficiencia y ante una nueva palabra se puede sacar su raƭz fƔcilmente.



Las desventajas que presenta es que primero depende del idioma, segundo hay que construir una tabla de reglas, y por Ćŗltimo el conjunto de reglas es critico en la calidad del lematizador.

Es un algoritmo del tipo heurístico basado en el método de los bigramas compartidos. Aunque estÔ incluido como método de lamatización aunque en realidad no se produce una lemarización como tal. Lo que pasa es que se calculan medidas de asociación entre pares de términos basÔndose en los bigramas únicos compartidos. Calculados los bigramas únicos se calcula una medida de similitud basada en el coeficiente de Dice: S = 2*C/(A+B)

​

Se forma una matriz de similitud aplicando la medida de similitud para todos los pares de tƩrminos de la base de datos. Una vez la dispuesta se asocian los tƩrminos usando alguno de los mƩtodos de agrupamiento conocidos.

​

Se pueden utilizar tĆ©cnicas clĆ”sicas de manipulación y almacenamiento de matrices escasas.  Usando un umbral de similitud de 0.6, la mayorĆ­a de agrupamientos son correctos y en casi ninguno se producen asociaciones falsas.



Entre sus ventajas se ouede citar que agrupa palabras similares, aún con prefijos y sufijos. la mayoría de los agrupamientos que se forman son correctos con un umbral de 0.6. AdemÔs es muy sensillo y fÔcil.



La principal desventaja es que como tal no lematiza pero es considerado como un mĆ©todo entonces esto puede producir confusiones.

Esta tĆ©cnica consiste en agrupar palabras con la misma raĆ­z, eliminando los sufijos de las palabras.

​

Estos algoritmos estĆ”n basados en trabajos de lingüística estructural que intentan determinar los lĆ­mites de las palabras y los morfemas basĆ”ndose en la distribución de fonemas en un gran cuerpo de pronunciaciones. Pueden tambiĆ©n usar letras en lugar de fonemas y el cuerpo detexto en lugar de pronunciaciones transcritas fonĆ©ticamente.



La variedad de sucesores de una cadena es el nĆŗmero de caracteres diferentes que siguen a esa cadena en las palabras de un cuerpo de texto.



Una vez calculado la variedad de sucesores para una palabra dad se puede usar esta información para segmentar la palabra con una de cuatro formas de hacerlo:



MƩtodo del valor de corte: Se selecciona un valor de corte para las variedades de sucesores y se identifica un lƭmite cada vez que se alcanza ese valor de corte.



MƩtodo de los picos y valles: Se hace el corte de segmento despuƩs de los caracteres cuya variedad de sucesores excede a la del carƔcter que los precede y a la del que lo sigue.



MƩtodo de palabra completa: Se hace el corte despuƩs de un segmento si Ʃste es una palabra completa en el corpus.



Método de la entropía: Aprovecha la distribución de las variedades de sucesores. Usando su ecuación se calculan las entropías de una palabra, se selecciona un valor de corte y se identifican los límites de segmento cuando se supera este valor de corte.



Para seleccionar el lexema los investigadores proponen que si el primer segmento aparece en menos o igual de 12 palabras del corpus entonces el primero segmento es el lexema, si no, el segundo es el lexema.



Las ventajas es que son sencillos, fĆ”ciles y trabaja de forma automĆ”tica obteniendo la lematización del corpus de texto.

​

El principal problema es la selección del valor de corte para obtener la raíz ya que si es pequeño se harÔn cortes incorrectos y si es demasiado grande se perderÔn cortes correctos. AdemÔs este algoritmo sólo elimina los sufijos de las palabras y es un poco mÔs el trabajo, computacionalmente hablando.

N-Gramas

Variedad de Sucesores

bottom of page