Geração de Linguagem Natural para Conversão de Dados em Texto - Aplicação a um Assistente de Medicação para o Português

José Casimiro Pereira; António Joaquim da Silva Teixeira

Ayuda

Geração de Linguagem Natural para Conversão de Dados em Texto - Aplicação a um Assistente de Medicação para o Português

Pereira, José Casimiro ^[1] ; Teixeira, António ^[2]
1. [1] Instituto Politécnico de Tomar
  
  Instituto Politécnico de Tomar
  
  Santa Maria Dos Olivais, Portugal
2. [2] Universidade de Aveiro
  
  Universidade de Aveiro
  
  Vera Cruz, Portugal
Localización: Linguamática, ISSN 1647-0818, Vol. 7, Nº. 1, 2015, págs. 3-21
Idioma: portugués
Títulos paralelos:
- Trainable NLG for Data to Portuguese: With application to a Medication Assistant
Enlaces
- Texto completo
Resumen
- español
  Novos equipamentos como 'smartphones' ou 'tablets' têm revolucionado a interacção do ser humano com a tecnologia, proporcionando novos desafios e oportunidades. Estes novos dispositivos são multimodais por natureza. De entre as várias modalidades, são particularmente interessantes as relacionadas com a interacção por voz e texto. Para que estas formas de interação possam ser usadas entre sistemas e utilizadores humanos, é essencial a existência de módulos capazes de traduzir as informações internas das aplicações em frases ou textos, para visualização no ecrã ou para serem sintetizados de forma a serem ouvidos. É, também, essencial que estes módulos possam gerar frases e textos nas línguas nativas dos utilizadores; que o processo de desenvolvimento não implique grandes conhecimentos e recursos, incluindo tempo de desenvolvimento; e o resultado da geração apresente a variabilidade necessária.O objectivo principal é o de propor, implementar e avaliar um método de conversão de Dados-para-português passível de ser desenvolvido com um mínimo de tempo e conhecimentos, mas sem comprometer a indispensável variabilidade e qualidade do que é gerado. O sistema apresentado, desenvolvido para um cenário de assistência à toma de medicamentos, destina-se a criar descrições, em linguagem natural, de informação sobre medicação a tomar. Motivados por resultados recentes, optou-se por uma abordagem baseada em tradução automática, com os modelos treinados num pequeno corpus paralelo.Para isso, foi criado um novo corpus que, depois de validado, foi utilizado no desenvolvimento do sistema. Foram criadas duas variantes do sistema: uma orientada à tradução baseada em sintagmas e outra fazendo uso de informação sintáctica. Foram realizadas avaliações utilizando métricas automáticas -- BLEU e Meteor -- bem como avaliações por humanos. Os resultados do sistema orientado a sintagmas foram francamente superiores aos do seu concorrente, obtendo uma média por avaliador humano de 60% de frases consideradas inteligíveis, contra 46% do seu congénere, o que pode considerar-se um bom resultado tendo em conta a dimensão do corpus.
- English
  New equipments, such as smartphones and tablets, are changing human computer interaction. These devices present several challenges, especially due to their small screen and keyboard. In order to use text and voice in multimodal interaction, it is essential to deploy modules to translate the internal information of the applications into sentences or texts, in order to display it on screen or synthesize it. Also, these modules must generate phrases and texts in the user's native language; the development should not require considerable resources; and the outcome of the generation should achieve a good degree of variability.Our main objective is to propose, implement and evaluate a method of data conversion to Portuguese which can be developed with a minimum of time and knowledge, but without compromising the necessary variability and quality of what is generated. The developed system, for a Medication Assistant, is intended to create descriptions, in natural language, of medication to be taken. Motivated by recent results, we opted for an approach based on machine translation, with models trained on a small parallel corpus.For that, a new corpus was created. With it, two variants of the system were trained: phrase-based translation and syntax-based translation. The two variants were evaluated by automatic measurements -- BLEU and Meteor -- and by humans. The results showed that a phrase-based approach produced better results than a syntax-based one: human evaluators evaluated 60% of phrase-based responses as good, or very good, compared to only 46% of syntax-based responses. Considering the corpus size, we judge this value (60%) as good.