Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente.

Catae, Fabricio Shigueru

doi:10.11606/D.3.2013.tde-06072014-225124

Accueil

Services

Mémoire de Maîtrise

DOI

https://doi.org/10.11606/D.3.2013.tde-06072014-225124

Document

Mémoire de Maîtrise

Auteur

Catae, Fabricio Shigueru (Catálogo USP)

Nom complet

Fabricio Shigueru Catae

Adresse Mail

Unité de l'USP

Escola Politécnica

Domain de Connaissance

Systèmes Numériques

Date de Soutenance

2013-01-08

Editeur

São Paulo, 2013

Directeur

Rocha, Ricardo Luis de Azevedo da (Catálogo USP)

Jury

Rocha, Ricardo Luis de Azevedo da (Président)
Kinoshita, Jorge
Silva, Flávio Soares Corrêa da

Titre en portugais

Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente.

Mots-clés en portugais

Algoritmos
Classificação automática de texto
Reconhecimento de padrões

Resumé en portugais

A análise da semântica latente é uma técnica de processamento de linguagem natural, que busca simplificar a tarefa de encontrar palavras e sentenças por similaridade. Através da representação de texto em um espaço multidimensional, selecionam-se os valores mais significativos para sua reconstrução em uma dimensão reduzida. Essa simplificação lhe confere a capacidade de generalizar modelos, movendo as palavras e os textos para uma representação semântica. Dessa forma, essa técnica identifica um conjunto de significados ou conceitos ocultos sem a necessidade do conhecimento prévio da gramática. O objetivo desse trabalho foi determinar a dimensionalidade ideal do espaço semântico em uma tarefa de classificação de texto. A solução proposta corresponde a um algoritmo semi-supervisionado que, a partir de exemplos conhecidos, aplica o método de classificação pelo vizinho mais próximo e determina uma curva estimada da taxa de acerto. Como esse processamento é demorado, os vetores são projetados em um espaço no qual o cálculo se torna incremental. Devido à isometria dos espaços, a similaridade entre documentos se mantém equivalente. Esta proposta permite determinar a dimensão ideal do espaço semântico com pouco esforço além do tempo requerido pela análise da semântica latente tradicional. Os resultados mostraram ganhos significativos em adotar o número correto de dimensões.

Titre en anglais

Automatic text classification using word similarities: a more efficient algorithm.

Mots-clés en anglais

Algorithms
Automatic text classification
Pattern recognition

Resumé en anglais

The latent semantic analysis is a technique in natural language processing, which aims to simplify the task of finding words and sentences similarity. Using a vector space model for the text representation, it selects the most significant values for the space reconstruction into a smaller dimension. This simplification allows it to generalize models, moving words and texts towards a semantic representation. Thus, it identifies a set of underlying meanings or hidden concepts without prior knowledge of grammar. The goal of this study was to determine the optimal dimensionality of the semantic space in a text classification task. The proposed solution corresponds to a semi-supervised algorithm that applies the method of the nearest neighbor classification on known examples, and plots the estimated accuracy on a graph. Because it is a very time consuming process, the vectors are projected on a space in such a way the calculation becomes incremental. Since the spaces are isometric, the similarity between documents remains equivalent. This proposal determines the optimal dimension of the semantic space with little effort, not much beyond the time required by traditional latent semantic analysis. The results showed significant gains in adopting the correct number of dimensions.

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

Diss_FabricioCatae.pdf (2.31 Mbytes)

Date de Publication

2014-07-14

Œvres dérivées

AVERTISSEMENT: Le matériau se réfère à des documents provenant de cette thèse ou mémoire. Le contenu de ces documents est la responsabilité de l'auteur de la thèse ou mémoire.

CATAE, F. S., e ROCHA, R. L. A. Classificação automática de texto buscando similaridade de palavras e significados ocultos. In XVIII Congreso Argentino de Ciencias de la Computación, Bahía Blanca, 2012. Anales del XVIII Congreso Argentino de Ciencias de la Computación.Bahía Blanca : Universidad Nacional del Sur, 2012. Dispon?vel em: http://sedici.unlp.edu.ar/handle/10915/23750.
CATAE, F. S., e ROCHA, R. L. A. Introdução a Árvores de Decisão Adaptativas. In Quinto Workshop de Tecnologia Adaptativa - WTA 2011, São Paulo, 2011. Memórias do WTA 2011 - Quinto Workshop de Tecnologia Adaptativa.São Paulo : Escola Politécnica da USP, 2011.