Avaliação de métodos para a extração automática de terminologia de textos em português

Teline, Maria Fernanda

doi:10.11606/D.55.2004.tde-25052004-012204

Accueil

Services

Mémoire de Maîtrise

DOI

https://doi.org/10.11606/D.55.2004.tde-25052004-012204

Document

Mémoire de Maîtrise

Auteur

Teline, Maria Fernanda (Catálogo USP)

Nom complet

Maria Fernanda Teline

Adresse Mail

Unité de l'USP

Instituto de Ciências Matemáticas e de Computação

Domain de Connaissance

Informatique et Mathématique Computationnelle

Date de Soutenance

2004-03-19

Editeur

São Carlos, 2004

Directeur

Aluisio, Sandra Maria (Catálogo USP)

Jury

Aluisio, Sandra Maria (Président)
Almeida, Gladis Maria de Barcellos
Oliveira Junior, Osvaldo Novais de

Titre en portugais

"Avaliação de métodos para a extração automática de terminologia de textos em português"

Mots-clés en portugais

bigramas
candidato(s)
termo(s)
trigramas
unigramas

Resumé en portugais

Nas últimas décadas, o grande avanço da ciência e tecnologia com suas invenções, novos materiais, equipamentos e métodos gerou a necessidade da criação de novos nomes, chamados aqui de termos, e alterações nos seus significados, para nomear adequadamente esses avanços, principalmente em áreas dinâmicas como a Ciência da Computação, a Genética e a Medicina. Dado que o desenvolvimento de repertórios terminológicos é um trabalho difícil quando realizado manualmente, lingüistas computacionais, lingüistas aplicados, tradutores, intérpretes, jornalistas científicos têm se interessado pela extração automática de terminologias (EAT) de textos. O crescimento explosivo de dados do tipo texto disponíveis na Web foi um fator contribuinte para a facilidade na construção de córpus eletrônicos de textos técnicos e científicos, propiciando a implementação de métodos de EAT. A EAT tem sido de grande interesse para todos os tipos de aplicações do Processamento de Línguas Naturais (PLN) que trabalham com domínios especializados e que, conseqüentemente, necessitam de um vocabulário especial. O objetivo desse projeto de mestrado foi avaliar métodos de EAT para o português do Brasil, ainda carente do tratamento automatizado para a criação de terminologias. Especificamente, foram implementados e avaliados métodos de EAT das abordagens estatística, lingüística e híbrida para unigramas, bigramas e trigramas a partir de um córpus de textos do domínio de Revestimentos Cerâmicos. Esses métodos empregam recursos simples como (a) uma stoplist para eliminar palavras como advérbios, (b) padrões sintáticos para os termos do domínio, por exemplo <substantivo adjetivo>, <substantivo preposição adjetivo>, levantados após a aplicação de um etiquetador Part-Of-Speech, (c) uma lista de expressões e palavras características de definições, descrições, classificações como 'definido(a)(s) como', 'caracterizado(a)', 'conhecido(a)(s) como', 'significa(m)', entre outras que são concentradoras de termos. As medidas estatísticas utilizadas nos métodos estatísticos e híbridos para indicar a relevância de termos no domínio são a informação mútua, o log-likelihood, o coeficiente dice e a freqüência. Os métodos propostos foram avaliados pelas medidas de precisão, revocação e medida F, utilizando uma lista de referência da área de Revestimentos Cerâmicos. Os melhores resultados da precisão são do método híbrido para unigramas (7%), bigramas (17%) e trigramas (26%), enquanto que a revocação é melhor nos métodos puramente lingüísticos tanto para unigramas (95%) como para bigramas (90%) e trigramas (100%). Os melhores valores da medida F foram dos métodos híbridos (11%, 17% e 33% para uni, bi e trigramas, respectivamente). Esses valores, embora tenham se apresentado os mais relevantes, foram bastante inferiores àqueles normalmente encontrados na literatura que trata da EAT, cujo desempenho obtido para essa tarefa fica em torno de 60%. Esses valores motivam a busca e implementação de métodos mais avançados para tratar o português, bem como a obtenção de recursos mais elaborados, a fim de encontrar resultados mais significantes para essa tarefa, facilitando, conseqüentemente o trabalho do especialista da área, que vai analisar os candidatos a termos extraídos pelos métodos automáticos, visto que é possível fornecer a ele informações mais precisas (poucas palavras da língua geral) e completas (uma maior quantidade de termos) sobre o córpus considerado.

Resumé en anglais

During the last decades, the great advance in science and technology and their inventions, new materials, equipment and methods had as one result the necessity of creation of new names, called here terms, and alterations on their meanings, to name adequately these advances, mainly in areas as Computer Science, Genetics and Medicine. Considering that the development of terminological lists is an arduous work if manually executed, computational linguists, applied linguists, translators, interpreters and scientific journalists have been interested on automatic extraction of terminologies (AET) from texts. The sudden growing of data available on the Web was a contributing factor to facilitate the construction of electronic corpus of technical and scientific texts, providing implementation of AET methods. AET is very important for every sort of Natural Language Processing (NLP) applications that works on specialized domains and, consequently, needs special vocabulary. The purpose of this MS project was to evaluate AET methods for Brazilian Portuguese particularly, which is a language still in need of development of automatic treatment for terminology. Specifically, AET methods with statistic, linguistic and hybrid approaches were implemented and evaluated for unigrams, bigrams and trigrams for a corpus of texts in the domain of Ceramic Tiles. These methods use simple resources as (a) stoplist to eliminate words as adverbs, (b) syntactic patterns for terms from the domain, as, for instance, <substantive adjective>, <substantive preposition adjective>, considered after the application of a tagger Part-Of-Speech, (c) list of expressions and words typical of definitions, descriptions and classifications, like, for instance, 'defined as', 'characterized as', 'known as', 'that means', among others that concentrate terms. The statistic measures used by statistic and hybrid methods to indicate the terms relevance in the domain are mutual information, log-likelihood, dice coefficient, and frequency. The methods proposed were evaluated by precision, recall and F-measure, using a reference list in the area of Ceramic Tiles. The best results for precision are from the hybrid method for unigrams (7%), bigrams (17%) and trigrams (26%), while for recall the best results are from purely linguistic methods for unigrams (95%) as well as for bigrams (90%) and trigrams (100%). The best values for F-measure are from hybrid methods (11%, 17% and 33% for uni, bi and trigrams, respectively). These values, although presented as the most relevant ones, were quite inferior when compared to those commonly found in the literature concerned with AET, whose performance obtained for this task is around 60%. These values motivate the search and implementation of more advanced methods for Portuguese treatment, as well as the obtainment of more elaborated resources, in order to find more significant results for this task. In this way, the work of analysis of possible terms extracted by automatic methods done by the specialist of the area becomes much easier, since it is possible to provide him/her more precise (few word from general language) and complete (greater number of terms) information about the corpus under consideration.

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

Agradecimentos.pdf

(34.84 Kbytes)