Deep learning methods for extractive text summarization

Akanksha Joshi

Ayuda

Deep learning methods for extractive text summarization

Autores: Akanksha Joshi
Directores de la Tesis: Enrique Alegre Gutiérrez (dir. tes.), Eduardo Fidalgo Fernández (dir. tes.)
Lectura: En la Universidad de León ( España ) en 2021
Idioma: inglés
Número de páginas: 114
Títulos paralelos:
- Métodos de aprendizaje profundo para texto extractivo resumen
Tribunal Calificador de la Tesis: Ana M. García Serrano (presid.), Víctor González Castro (secret.), Luis Fernando d'Haro Enríquez (voc.)
Programa de doctorado: Programa de Doctorado en Ingeniería de Producción y Computación por la Universidad de León
Materias:
- Ciencias de las artes y las letras
  - Teoría análisis y critica literarias
    - Critica de textos
Enlaces
- Tesis en acceso abierto en: BULERIA
Resumen
- español
  Esta tesis presenta nuevos algoritmos, métodos y conjuntos de datos para realizar resúmenes de texto extractivos en documentos individuales utilizando métodos de aprendizaje profundo y enfoques basados en la fusión de puntuaciones.
  
  Nuestra primera contribución es SummCoder, un método no supervisado que, por ese motivo, no se ve afectado por la carencia de grandes conjuntos de datos etiquetados, para el entrenamiento de modelos de resúmenes de texto extractivos. SummCoder genera un resumen de texto utilizando tres métricas de selección de oraciones: relevancia del contenido, novedad y relevancia de la posición. La relevancia del contenido de una frase se mide utilizando una red profunda de codificación automática. La métrica de novedad se calcula midiendo la similitud entre oraciones, previamente codificadas como incrustaciones en un espacio semántico distribuido. Por último, la métrica de relevancia de la posición de una frase se basa en una función diseñada que asigna más peso a las primeras oraciones a través de una función de cálculo de peso dinámico regulada por la longitud del documento. Se propone generar el resumen de texto final fusionando las tres métricas anteriores y ordenando dichas frases dentro del resumen final en base a la puntuación obtenida. Además, presentamos TIDSumm, un conjunto de datos que contiene resúmenes extractivos de 100 dominios recuperados de la red Tor (del inglés, The Onion Router). El objetivo de este dataset es comprobar la efectividad de los métodos de resumen de texto extractivos para dar un posible soporte a Fuerzas y Cuerpos de Seguridad del Estado.
  
  Para mejorar aún más la precisión de los resúmenes de texto extractivos, proponemos DeepSumm, un método para generar resúmenes que utiliza la información de los tópicos de los documentos junto con redes profundas de secuencia a secuencia. Los vectores de los tópicos pueden capturar información semántica en el documento. Cada oración se codifica a través de dos redes neuronales recurrentes diferentes basadas en distribuciones de tópicos probabilísticos e incrustaciones de palabras, y luego aplicar una red de secuencia-a-secuencia a la codificación de cada oración. Las salidas de dicha red se combinan tras ser ponderadas utilizando un mecanismo de atención, convirtiéndose en una puntuación a través de una red neuronal de perceptrones de múltiples capas. Las puntuaciones de las oraciones basadas en el tema, la inserción de palabras, la posición y la novedad de cada oración finalmente se fusionan para generar una puntuación para cada oración que indica su importancia dentro del resumen final. Los resultados de la experimentación demostraron que DeepSumm captura tanto la información semántica global como local del documento, y obtiene mejores resultados que los métodos del estado del arte a la hora de obtener resúmenes de texto extractivos en los conjuntos de datos DUC 2002 y CNN / DailyMail.
  
  Finalmente, hemos abordado nuevamente la generación de resúmenes de texto extractivos sin necesidad de un proceso supervisado. En este caso, hemos propuesto RankSum, un enfoque basado en la fusión de características multidimensionales de las oraciones en el documento, como son la información del tópico, el contenido semántico, las palabras clave significativas y la posición de las oraciones, para clasificarlas según su significado. Para determinar la clasificación de los tópicos, utilizamos modelos probabilísticos, mientras que la información semántica se captura utilizando frases incrustadas.
  
  Para clasificar utilizando incrustaciones de oraciones, utilizamos redes siamesas que permiten producir una representación de oraciones abstractas y luego formulamos una nueva estrategia para ordenarlas en base a su importancia. Se aplica una estrategia basada en grafos para encontrar las palabras clave significativas y las clasificaciones de oraciones relacionadas en el documento. También formulamos una medida de novedad de oraciones basada en bigramas, trigramas e incrustaciones de oraciones para eliminar las oraciones redundantes del resumen. Calculamos el rango de todas las oraciones en el documento usando cada una de estas características. Los rangos de todas las oraciones finalmente se fusionan para obtener la puntuación final de cada oración en el documento. Los resultados experimentales muestran que nuestro enfoque obtiene resultados comparables con otros métodos existentes del estado del arte
- English
  This thesis presents new algorithms, methods, and datasets to solve extractive text summarization of single documents using deep learning methods and fusion-based approaches.
  
  Our first contribution is SummCoder, an unsupervised method for extractive text summarization, unaffected by the non-availability of large labeled datasets required for supervised learning of extractive text summarization. Our proposal generates a summary according to three metrics for sentence selection: content relevance, novelty, and position relevance. The relevance of the sentence content is measured using a deep auto-encoder network. The novelty metric is derived by exploiting the similarity among sentences represented as embeddings in a distributed semantic space. And, the sentence position relevance is a hand-designed feature, which assigns more weight to the first few sentences through a dynamic weight calculation function regulated by the document length. Furthermore, we developed a sentence ranking and a selection technique for generating a document summary by ranking the sentences according to the final score obtained by fusing the three sentences selection metrics. We also introduce a new summarization benchmark, Tor Illegal Documents Summarization (TIDSumm) dataset, mainly to assist Law Enforcement Agencies (LEAs). It contains two sets of ground truth summaries, manually created, for 100 web documents extracted from onion websites in Tor (The Onion Router) network. The evaluation of SummCoder framework on DUC 2002, CNN/DailyMail, Blog Summarization and TIDSumm dataset exhibits a remarkable improvement in ROUGE scores on all of these datasets, compared to other state-of-the-art systems.
  
  To keep enhancing the accuracy on the task of text summarization, we propose DeepSumm, a summarization framework that utilizes the topic information in documents along with sequence to sequence networks. The topic vectors capture long-range semantic information in the document that is not otherwise encapsulated using other document representations. In DeepSumm, we utilize the latent information in the document estimated via topic vectors and sequence networks to improve the quality and accuracy of the summarized text. Each sentence is encoded through two different recurrent neural networks based on probabilistic topic distributions and word embeddings. Then, a sequence to sequence network is applied to each sentence encoding. The outputs of the encoder and the decoder in the sequence to sequence networks are combined after weighting using an attention mechanism and converted into a score through a multi-layer perceptron network. The sentence scores based on topic, sentence embeddings, position and novelty of each sentence are fused to generate a rank for each sentence indicating their importance.
  
  We empirically demonstrated that DeepSumm captures the global and local semantic information of the document, outperforming existing state-of-the-art approaches for extractive text summarization in DUC 2002 and CNN/DailyMail datasets.
  
  Our final contribution aims to increase the accuracy of the text summarization task without any supervision. We designed RankSum, a fusion-based approach that looks at multidimensional features of sentences in the document to achieve this. The proposed methodology utilizes the heterogeneous features of sentences such as topic information, semantic content, important keywords and positional information in sentences to rank them according to their significance. We use probabilistic topic models to determine topic rank, whereas semantic information is captured using sentence embeddings. To derive rankings using sentence embeddings, we utilize Siamese networks to produce abstractive sentence representation and then we formulate a novel strategy to arrange them in their order of importance. A graph-based strategy is applied to find the significant keywords and related sentence rankings in the document. We also formulate a sentence novelty measure based on bigrams, trigrams and sentence embeddings to eliminate the redundant sentences from the summary. We compute the rank of all the sentences in the document using each of these features. The ranks of all the sentences are finally fused to get the final score for each sentence in the document. Experimental results on CNN/DailyMail and DUC 2002 dataset show that our approach is one of the best approaches compared to existing state-of-the-art summarization methods.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: