Tecnicas | lematizacion

Eliminación de Afijos

Búsqueda en Tabla

Para valorar un lematizador se toma en cuenta primeramente su exactitud, hay dos formas en que un lematizador pueda ser inexacto: Over-Stemming (Hiperlematización) y Under-Stemming (Hipolematización). La primera se refiere al hecho de que al eliminar demasiados caracteres del término durante el proceso se pueden juntar términos que no están relacionados, causa la recuperación de documentos no relevantes. El segundo se refiere más bien que al eliminar menos caracteres de lo debido, impide que se junten términos relacionados, causando la no recuperación de documentos relevantes.

Otros factores que influyen en la valoración de un lematizador es la efectividad de la recuperación y el nivel de compresión de los índices .

Algoritmos de Lematización

Es un algoritmo bastante sencillo, consiste en almacenar en un tabla los términos índice con sus propios lexemas.

Los términos de las consultas y de los índices podrán ser lematizados a tráves de búsquedas en la tabla. Usando un árbol-B o una dispersión estas búsquedas serán muy rápidas.

Las principales ventajas como anteriormente se mencionó es que es muy sencillo y muy rápido usando árbol-B o dispersión.

Las desventajas son: tener que construir la tabla, puede provocar una sobrecarga de almacenamiento, se complica para palabras especificas y no existen estándares para las tablas.

Se trata de eliminar prefijos y sufijos de los términos por medio de este algoritmo, dejando así solo sus lexemas y transformándolo en ocasiones.

Se aplican ciertas reglas a las palabras dándonos su firma común. Se basa en reglas gramaticales aplicadas al revés.

El algoritmo más conocido y usado es el de PORTER aplicando de 30 a 40 reglas sobre las palabras. Este algoritmo es usado para el idioma inglés y solo elimina sufijos.

Las ventajas que presenta es que con pocas reglas se obtiene gran eficiencia y ante una nueva palabra se puede sacar su raíz fácilmente.

Las desventajas que presenta es que primero depende del idioma, segundo hay que construir una tabla de reglas, y por último el conjunto de reglas es critico en la calidad del lematizador.

Es un algoritmo del tipo heurístico basado en el método de los bigramas compartidos. Aunque está incluido como método de lamatización aunque en realidad no se produce una lemarización como tal. Lo que pasa es que se calculan medidas de asociación entre pares de términos basándose en los bigramas únicos compartidos. Calculados los bigramas únicos se calcula una medida de similitud basada en el coeficiente de Dice: S = 2*C/(A+B)

Se forma una matriz de similitud aplicando la medida de similitud para todos los pares de términos de la base de datos. Una vez la dispuesta se asocian los términos usando alguno de los métodos de agrupamiento conocidos.

Se pueden utilizar técnicas clásicas de manipulación y almacenamiento de matrices escasas. Usando un umbral de similitud de 0.6, la mayoría de agrupamientos son correctos y en casi ninguno se producen asociaciones falsas.

Entre sus ventajas se ouede citar que agrupa palabras similares, aún con prefijos y sufijos. la mayoría de los agrupamientos que se forman son correctos con un umbral de 0.6. Además es muy sensillo y fácil.

La principal desventaja es que como tal no lematiza pero es considerado como un método entonces esto puede producir confusiones.

Esta técnica consiste en agrupar palabras con la misma raíz, eliminando los sufijos de las palabras.

Estos algoritmos están basados en trabajos de lingüística estructural que intentan determinar los límites de las palabras y los morfemas basándose en la distribución de fonemas en un gran cuerpo de pronunciaciones. Pueden también usar letras en lugar de fonemas y el cuerpo detexto en lugar de pronunciaciones transcritas fonéticamente.

La variedad de sucesores de una cadena es el número de caracteres diferentes que siguen a esa cadena en las palabras de un cuerpo de texto.

Una vez calculado la variedad de sucesores para una palabra dad se puede usar esta información para segmentar la palabra con una de cuatro formas de hacerlo:

Método del valor de corte: Se selecciona un valor de corte para las variedades de sucesores y se identifica un límite cada vez que se alcanza ese valor de corte.

Método de los picos y valles: Se hace el corte de segmento después de los caracteres cuya variedad de sucesores excede a la del carácter que los precede y a la del que lo sigue.

Método de palabra completa: Se hace el corte después de un segmento si éste es una palabra completa en el corpus.

Método de la entropía: Aprovecha la distribución de las variedades de sucesores. Usando su ecuación se calculan las entropías de una palabra, se selecciona un valor de corte y se identifican los límites de segmento cuando se supera este valor de corte.

Para seleccionar el lexema los investigadores proponen que si el primer segmento aparece en menos o igual de 12 palabras del corpus entonces el primero segmento es el lexema, si no, el segundo es el lexema.

Las ventajas es que son sencillos, fáciles y trabaja de forma automática obteniendo la lematización del corpus de texto.

El principal problema es la selección del valor de corte para obtener la raíz ya que si es pequeño se harán cortes incorrectos y si es demasiado grande se perderán cortes correctos. Además este algoritmo sólo elimina los sufijos de las palabras y es un poco más el trabajo, computacionalmente hablando.

N-Gramas

Variedad de Sucesores