Extracción automática de unidades terminológicas guiada por Framenet: una aplicación al corpus electrónico CORD-19

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/125117
Información del item - Informació de l'item - Item information
Título: Extracción automática de unidades terminológicas guiada por Framenet: una aplicación al corpus electrónico CORD-19
Título alternativo: Automatic framenet-guided extraction of terminology: an application to the cord-19 electronic corpus
Autor/es: Crespo Miguel, Mario
Palabras clave: Terminología | FrameNet | Lenguaje especializado | Extracción de términos | Análisis de corpus | Frecuencia de aparición del término - Frecuencia inversa del documento (tf-idf) | Terminology | Specialised language | Term extraction | Corpus analysis | Term frequency – Inverse document frequency (tf-idf)
Fecha de publicación: 2022
Editor: Universidad de Alicante. Departamento de Filología Española, Lingüística General y Teoría de la Literatura
Cita bibliográfica: ELUA. Estudios de Lingüística. 2022, 38: 281-300. https://doi.org/10.14198/ELUA.22357
Resumen: La evolución de la terminología va unida a las nuevas tecnologías y al desarrollo de plataformas de trabajo o interfaces, que permitan crear un glosario técnico de forma semiautomática o incluso automática. Las unidades terminológicas y sus propiedades están conectadas a la expresión del conocimiento de los campos especializados en los que aparecen, por lo que estos enfoques automáticos no solo se enfrentan a la tarea de determinar cuáles son las unidades terminológicas de un campo determinado, sino a expresar cómo se estructura dicha información en esa disciplina. Muchas de las unidades terminológicas que se pueden encontrar en un ámbito científico determinado aparecen en otros campos e, incluso, en el uso general. Los términos suelen estar presentes en el acervo léxico de las lenguas y comparten con las unidades léxicas un complejo conjunto de relaciones. La semántica de marcos es un modelo particularmente atractivo para el trabajo terminológico, interesado en dar cuenta de la conexión entre la estructura conceptual de un campo de conocimiento especializado y los elementos utilizados para transmitir este conocimiento. Esto ha llevado a muchos investigadores a utilizar FrameNet como forma de representar la terminología. FrameNet es un recurso en línea para el inglés basado en la semántica de marcos y respaldado por pruebas de corpus. Un marco se fundamenta en el hecho de que ciertas palabras evocan determinadas situaciones en las que tienen lugar determinados participantes. Estas situaciones o marcos son estructuras estereotipadas que representan áreas de experiencia y conocimiento sociocultural. Presentamos un enfoque estadístico basado en corpus que es capaz de seleccionar los marcos de FrameNet que mejor representan un conjunto de textos electrónicos sobre COVID-19 e indicar cuáles de sus unidades léxicas funcionan como unidades terminológicas de ese corpus. Los resultados muestran cómo esta metodología puede ser un buen apoyo al trabajo terminográfico, ya que no solo permite la extracción de unidades terminológicas, sino el uso del esqueleto formal de FrameNet como medio para estructurar este conocimiento. | The evolution of Terminology is joined to new technologies and the development of work platforms or interfaces that allow creating a technical glossary semi-automatically or even automatically. Terms and their properties are connected formally to the expression of knowledge of specialized fields in which they occur, so automatic approaches are not only faced with the task of determining which are the terminological units of a given field, but to express how such information is structured in their technical field. Most of the terms occurring in a scientific domain are also found in other disciplines and even in everyday language. Terms are often present on the lexical stock of languages and share with lexical units a complex set of relationships. Frame Semantics is a particularly attractive model for the terminological work, interested in accounting for the connection between the conceptual structure of a specialized field and the elements used to transmit this knowledge. This has led to many researchers to use FrameNet as a way of representing terminology. FrameNet is an online resource for English based on Frame Semantics and supported by corpus evidence. A frame is founded on the basis that certain words evoke certain situations in which particular participants take place. These situations or frames are stereotyped structures representing areas of sociocultural experience and knowledge. We present a statistical approach based on corpus able to select most representative FrameNet frames that best represent a set of electronic texts on COVID-19 and show which of their lexical units work as terminological units. Results confirm that this methodology can be a good support for terminographic work, since it not only allows the extraction of terminological units, but also the use of the FrameNet framework to structure this knowledge.
Patrocinador/es: Esta investigación se enmarca dentro del proyecto Lingüística y Humanidades Digitales: base de datos relacional de documentación lingüística (PY18-FR-2511) Entidad financiadora: Convocatoria 2018 de Ayudas a proyectos I+D+i (Modalidad «Frontera Consolidado») del Plan Andaluz de Investigación, Desarrollo e Innovación Duración del proyecto: 01/01/2020 -31/03/2023. Cuantía de la subvención: 71.800 €. Investigador responsable: Miguel Casas Gómez.
URI: http://hdl.handle.net/10045/125117
ISSN: 0212-7636 | 2171-6692 (Internet)
DOI: 10.14198/ELUA.22357
Idioma: spa
Tipo: info:eu-repo/semantics/article
Derechos: © 2022 Mario Crespo Miguel. Este trabajo está sujeto a una licencia de Reconocimiento 4.0 Internacional de Creative Commons (CC BY 4.0)
Revisión científica: si
Versión del editor: https://doi.org/10.14198/ELUA.22357
Aparece en las colecciones:ELUA. Estudios de Lingüística Universidad de Alicante - 2022, N. 38

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailELUA_38_13.pdf570,37 kBAdobe PDFAbrir Vista previa


Este ítem está licenciado bajo Licencia Creative Commons Creative Commons