En esta tesis se presentan deversas metodologías de adquisición automática de información léxica y morfosintáctica y de aprendizaje no supervisado de la morfología a partir de corpus sin anotar.Las metoddología que presentamos se han probado para dos lenguas eslavas:el ruso y el croata;lenguas que se caracterizan por tener una morfología rica y de tipo predominantemente concatenativo.Esta caracteristica se ha aprovechado en el diseño de los algoritmos, que se pueden adaptar fácilmente para funcionar para otras lenguas que presenten una morfología relativamente rica y cuyos principales procesos morfologícos, ya sean sufijales o prefijales, se puedan describir de una manera concatenativa. Se ha realizado una evaluación exhaustiva de las metodologías presentadas y se ha demostrado que funcionan muy satisfactoriamente para estas lesguas.El hecho que funcionen de corpus sin anotar hace que sean muy interesantes para la creación de nuevos recursos léxicos o para la ampliación de recursos existentes. Los algoritmos presentados en este trabajo pueden utilizar Internet para buscar información no presente en el corpus, lo que supone que se puedan aplicar los procesos sin la necesidad de recopilar corpus de gran tamaño.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados