• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Disertación de Maestría
DOI
10.11606/D.55.2018.tde-11012018-165357
Documento
Autor
Nombre completo
Verônica Agostini
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Carlos, 2014
Director
Tribunal
Pardo, Thiago Alexandre Salgueiro (Presidente)
Felippo, Ariani Di
Specia, Lucia
Título en portugués
Alinhamento automático de textos e sumários multidocumento
Palabras clave en portugués
Não disponível
Resumen en portugués
Com o excesso de informação disponível online, a Sumarização Automática tornouse uma área de bastante interesse na grande área da Inteligência Artificial. Alguns autores tentaram caracterizar o processo de sumarização para compreender melhor como sumarizadores o realizam. O alinhamento de um sumário e seus textos fonte pode ser encarado como uma caracterização desse processo. Com relação à sumarização automática, a técnica de alinhamento consiste em obter relações entre segmentos de um ou vários textos e seu sumário e, da forma que o conteúdo de um segmento esteja contido no outro. Uma vez obtidas essas relações, tornase possível (i) aprender como sumarizadores profissionais realizam a sumarização, (ii) explicitar regras e modelos para a sumarização, e (iii) criar métodos automatizados utilizando as regras e modelos explicitados, o que traz uma contribuição à Sumarização Automática. Neste trabalho, foram propostas três abordagens dentro das abordagens superficiais e profundas do Processamento de Língua Natural para realizar os alinhamentos de forma automática. A primeira utiliza três métodos superficiais, sendo eles Word overlap, tamanho relativo e posição relativa. A segunda caracterizase em uma técnica de alinhamento com mais conhecimento linguístico, pois nela foi utilizada uma teoria discursiva, a CST (CrossDocument Structure Theory). A terceira utiliza Aprendizado de Máquina, caracterizando uma abordagem híbrida dada a característica de seus atributos superficiais e profundos, relativo à primeira e à segunda abordagem. Uma avaliação comparativa entre elas, e também entre um trabalho da literatura, foi realizada. Quando os dados do aprendizado de máquina eram balanceados, foi atingido o valor de 97,2% de medidaF, maior valor encontrado. O método superficial Word overlap também obteve um bom resultado, sendo ele 66,2% de medidaF.
Título en inglés
Not available
Palabras clave en inglés
Not available
Resumen en inglés
With the huge amount of online information, the Automatic Summarization has become an area of great interest in the Artificial Intelligence area. Some authors have tried to characterize the process of summarization to aim a better understanding of how the summarizers perform the summarization. The alignment of an abstract and its source texts can be seen as a characterization of this process. Regarding the automatic summarization, the alignment technique consists in obtaining relations between segments of one, or more text, and its abstract, in a way that the segment content is contained in the other segment. Once obtained these relationships, it becomes possible to (i) learn how professional summarizers perform the summarization, (ii) explicit rules and models for summarization, and (iii) create automated methods using the rules and the models, which brings a contribution to the Automatic Summarization area. In this dissertation, three approaches within the Natural Language Processing superficial and deep approaches have been proposed to carry the alignments automatically. The first uses three superficial methods, namely Word overlap, relative size and relative position. The second is an alignment technique with more linguistic knowledge, because was used a discursive theory, the CST (Crossdocument Structure Theory). The third uses Machine Learning, featuring a hybrid approach given the characteristics of its deep and superficial attributes, relative to the first and second approaches. A comparative evaluation among them was performed. When the machine learning data were balanced, the value achieved was 97.2% of Fmeasure, the highest value found. The superficial method Word overlap also achieved a good result, which is 66.2% of Fmeasure.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
VeronicaAgostini.pdf (1.47 Mbytes)
Fecha de Publicación
2018-01-11
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2019. Todos los derechos reservados.