• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Disertación de Maestría
DOI
https://doi.org/10.11606/D.55.2024.tde-01082024-152437
Documento
Autor
Nombre completo
Diego Pedro Gonçalves da Silva
Dirección Electrónica
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Carlos, 2024
Director
Tribunal
Pardo, Thiago Alexandre Salgueiro (Presidente)
Aluisio, Sandra Maria
Felippo, Ariani Di
Oliveira Junior, Miguel Jose Alves de
 
Título en portugués
Indução gramatical automática para o português
Palabras clave en portugués
Indução gramatical
Inferência gramatical
Parsing não supervisionado
Resumen en portugués
A indução gramatical automática é uma tarefa que busca extrair estruturas sintáticas de sentença não anotada. Esta tarefa é importante para diversas aplicações não apenas para Processamento de Língua Natural, mas também para Bioinformática, Linguística, Engenharia de Software e Psicolinguística, para citar algumas. Há uma grande limitação de trabalhos para o português, pois a maioria são direcionados para a língua inglesa. Os trabalhos existentes para outras línguas são construídos, geralmente, para tentar generalizar para outras línguas, que naturalmente podem apresentar estruturas linguísticas distintas. Com a importância da língua portuguesa, uma das 10 mais faladas no planeta, assim como a falta de modelos precisos para a língua portuguesa, faz-se necessário uma investigação sobre a possibilidade de preencher esta lacuna. O objetivo deste trabalho foi estudar os métodos em Indução Gramatical sobre a perspectiva da língua portuguesa e propor novos métodos para o Português usando texto puro (sem nenhum tipo de anotação feita por humanos, ou automatizada não supervisionada). Para atingir estes objetivos, foi realizada uma exaustiva revisão da literatura. Em seguida foram realizados estudos a fim de analisar a viabilidade de determinadas abordagens, como a Informação Mútua, na indução gramatical para o português. Os resultados alcançados neste estudo evidenciam a viabilidade de recuperar estruturas gramaticais, inclusive certos tipos de relações sintáticas, como sujeito e objeto, com uma certa confiança, 74.9% para objetos e 50.1% para sujeitos. Além disso, notou-se que a utilização de características intrínsecas da língua, como o comprimento das palavras, contribuem para um melhor desempenho do método.
 
Título en inglés
Grammar induction for portuguese.
Palabras clave en inglés
Gramatical inference
Grammar induction
Unsupervised parsing
Resumen en inglés
Grammar induction is a task that aims to extract syntactic structures from unannotated sentences. This task is important for various applications not only in Natural Language Processing but also in Bioinformatics, Linguistics, Software Engineering, and Psycholinguistics, to name a few. There is a significant limitation of works for Portuguese, as most are targeted towards the English language. Existing works for other languages are generally built to generalize to other languages, which naturally may have different linguistic structures. Given the importance of the Portuguese language, one of the top 10 spoken languages ones the planet, as well as the lack of precise models for Portuguese, there is a need for investigation into the possibility of filling this gap. The goal of this work was to study grammar induction methods from the perspective of the Portuguese language and propose new methods for Portuguese using raw text (without any type of annotation made by humans or unsupervised automatization). To achieve these objectives, an exhaustive literature review was conducted. Studies were then carried out to analyze the feasibility of certain approaches, such as Mutual Information, in grammar induction for Portuguese. The results obtained in this study demonstrate the feasibility of recovering grammatical structures, including certain types of syntactic relationships, such as the subject, with a certain level of confidence. Additionally, it was observed that the use of intrinsic language features, such as word length, contributes to improved method performance.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2024-08-01
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores.
CeTI-SC/STI
© 2001-2024. Biblioteca Digital de Tesis y Disertaciones de la USP.