Um estudo sobre a Teoria da Predição aplicada à análise semântica de Linguagens Naturais.

Chaer, Iúri

doi:10.11606/D.3.2010.tde-16112010-101029

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.3.2010.tde-16112010-101029

Documento

Dissertação de Mestrado

Autor

Chaer, Iúri (Catálogo USP)

Nome completo

Iúri Chaer

E-mail

Unidade da USP

Escola Politécnica

Área do Conhecimento

Sistemas Digitais

Data de Defesa

2010-02-18

Imprenta

São Paulo, 2010

Orientador

Rocha, Ricardo Luis de Azevedo da (Catálogo USP)

Banca examinadora

Rocha, Ricardo Luis de Azevedo da (Presidente)
Gomi, Edson Satoshi
Silva, Flávio Soares Corrêa da

Título em português

Um estudo sobre a Teoria da Predição aplicada à análise semântica de Linguagens Naturais.

Palavras-chave em português

Aprendizado computacional
Inteligência artificial
Linguagem Natural
Semântica formal

Resumo em português

Neste trabalho, estuda-se o aprendizado computacional como um problema de indução. A partir de uma proposta de arquitetura de um sistema de análise semântica de Linguagens Naturais, foram desenvolvidos e testados individualmente os dois módulos necessários para a sua construção: um pré-processador capaz de mapear o conteúdo de textos para uma representação onde a semântica de cada símbolo fique explícita e um módulo indutor capaz de gerar teorias para explicar sequências de eventos. O componente responsável pela indução de teorias implementa uma versão restrita do Preditor de Solomonoff, capaz de tecer hipóteses pertencentes ao conjunto das Linguagens Regulares. O dispositivo apresenta complexidade computacional elevada e tempo de processamento, mesmo para entradas simples, bastante alto. Apesar disso, são apresentados resultados novos interessantes que mostram seu desempenho funcional. O módulo pré-processador do sistema proposto consiste em uma implementação da Análise da Semântica Latente, um método que utiliza correlações estatísticas para obter uma representação capaz de aproximar relações semânticas similares às feitas por seres humanos. Ele foi utilizado para indexar os mais de 470 mil textos contidos no primeiro disco do corpus RCV1 da Reuters, produzindo, a partir de dezenas de variações de parâmetros, 71;5GB de dados que foram utilizados para diversas análises estatísticas. Foi construído também um sistema de recuperação de informações para análises qualitativas do método. Os resultados dos testes levam a crer que o uso desse módulo de pré-processamento leva a ganhos consideráveis no sistema proposto. A integração dos dois componentes em um analisador semântico de Linguagens Naturais se mostra, neste momento, inviável devido ao tempo de processamento exigido pelo módulo indutor e permanece como uma tarefa para um trabalho futuro. No entanto, concluiu-se que a Teoria da Predição de Solomonoff é adequada para tratar o problema da análise semântica de Linguagens Naturais, contanto que sejam concebidas formas de mitigar o problema do seu tempo de computação.

Título em inglês

A study on the Theory of Prediction applied to the semantical analysis of Natural Languages.

Palavras-chave em inglês

Artificial intelligence
Computer learning
Formal semantics
Natural Language

Resumo em inglês

In this work, computer learning is studied as a problem of induction. Starting with the proposal of an architecture for a system of semantic analisys of Natural Languages, the two modules necessary for its construction were built and tested independently: a pre-processor, capable of mapping the contents of texts to a representation in which the semantics of each symbol is explicit, and an inductor module, capable of formulating theories to explain chains of events. The component responsible for the induction of theories implements a restricted version of the Solomonoff Predictor, capable of producing hypotheses pertaining to the set of Regular Languages. Such device presents elevated computational complexity and very high processing time even for very simple inputs. Nonetheless, this work presents new and interesting results showing its functional performance. The pre-processing module of the proposed system consists of an implementation of Latent Semantic Analisys, a method which draws from statistical correlation to build a representation capable of approximating semantical relations made by human beings. It was used to index the more than 470 thousand texts contained in the first disk of the Reuters RCV1 corpus, resulting, through dozens of parameter variations, 71:5GB of data that were used for various statistical analises. The test results are convincing that the use of that pre-processing module leads to considerable gains in the system proposed. The integration of the two components built into a full-fledged semantical analyser of Natural Languages presents itself, at this moment, unachievable due to the processing time required by the inductor module, and remains as a task for future work. Still, Solomonoffs Theory of Prediction shows itself adequate for the treatment of semantical analysis of Natural Languages, provided new ways of palliating its processing time are devised.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

Dissertacao_Iuri_Chaer.pdf (630.31 Kbytes)

Data de Publicação

2010-11-30

Trabalhos decorrentes

AVISO: O material descrito abaixo refere-se a trabalhos decorrentes desta tese ou dissertação. O conteúdo desses trabalhos é de inteira responsabilidade do autor da tese ou dissertação.

CHAER, I., e ROCHA, R. L. A. A procedure for semantic querying in the Adaptive Formalism. Revista IEEE América Latina, 2011, vol. 9, p. 145-151.
CHAER, I., e ROCHA, R. L. A. Um estudo sobre a Ação Elementar de Consulta no Formalismo Adaptativo. In III Workshop de Tecnologia Adaptativa - WTA 2009, São Paulo, 2009. Memórias do WTA 2009 - Terceiro Workshop de Tecnologia Adaptativa.São Paulo : Escola Politécnica da USP, 2009.
CHAER, I., e ROCHA, R. L. A. Estabelecimento do contexto semântico em textos em linguagem natural. In I Congresso de Computação da Grande Dourados - CCGD, Dourados, 2008. Anais do I Congresso de Computação da Grande Dourados.Dourados : Editora da Universidade Federal da Grande Dourados, 2008.