Ayuda
Ir al contenido

Dialnet


ATLAS: The Multilingual Language Processing Platform

  • Autores: Maciej Ogrodniczuk, Diman Karagiozov
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 47, 2011, págs. 241-248
  • Idioma: inglés
  • Enlaces
  • Resumen
    • español

      En este trabajo se presenta la plataforma ATLAS – marco multilingüe de procesamiento del lenguaje que integra el conjunto común de herramientas lingüísticas para un grupo de lenguas europeas (con menos recursos: búlgaro, croata, griego, polaco y rumano, junto con inglés y alemán como lenguas de referencia). La más avanzada funcionalidad PNL que ofrece la plataforma permite la anotación de textos multilingües en los niveles inferiores (segmentación, morfosintaxis) y a su vez soporta el procesamiento de más alto nivel como la categorización automática, extracción de información, la traducción automática o de resumen. Métodos de anotación más elaborados como la extracción de la entidad nombrada o lematización unitaria de varias palabras también están disponibles. La anotación multinivel de los textos se rige por las cadenas de procesamiento de lenguaje construidas con el estándar de la industria UIMA. Para demostrar las capacidades del marco, se han construido en la parte superior del mismo tres servicios informados lingüísticamente: ”i-Publisher” (plataforma de gestión de contenidos basada en la Web), ”i-Librarian” (una biblioteca digital de trabajos científicos) y “EUDocLib” (página para la navegación y la búsqueda a través de documentos de EUR-LEX).

    • English

      This paper presents the ATLAS platform – multilingual language processing framework integrating the common set of linguistic tools for a group of European languages (less-resourced: Bulgarian, Croatian, Greek, Polish and Romanian together with English and German as reference languages). State-of-the-art NLP functionality offered by the platform allows for multilingual annotation of texts on lower levels (segmentation, morphosyntax) which in turn supports higher-level processing such as automated categorization, information extraction, machine translation or summarization. More elaborate annotation methods such as named entity extraction or multiword unit lemmatization are also available. Multilevel annotation of texts is governed by language processing chains constructed with UIMA (Unstructured Information Management Application) industry standard. To demonstrate capabilities of the framework, three linguistically-aware online services have been built on top of it: i-Publisher (Web-based content management platform), i-Librarian (a digital library of scientific works) and EUDocLib (site for browsing and searching through EUR-LEX documents).


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno