• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Doctoral Thesis
DOI
https://doi.org/10.11606/T.55.2022.tde-16022023-172628
Document
Author
Full name
Ricardo Brigato Scheicher
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
São Carlos, 2022
Supervisor
Committee
Rezende, Solange Oliveira (President)
Marcacini, Ricardo Marcondes
Moura, Maria Fernanda
Santos, Marilde Terezinha Prado
Title in Portuguese
Classificação semanticamente enriquecida por expressões do domínio
Keywords in Portuguese
Classificação semântica de textos
Extração de termos
Mineração de textos
Representação semântica de textos
Abstract in Portuguese
Com o aumento da quantidade e variedade de textos em formato digital, seja em redes sociais, web ou internamente nas organizações, as técnicas de Mineração de Textos tornam-se essenciais no apoio à extração e organização desse conhecimento. Em tarefas de classificação de documentos, a representação dos dados tem um alto impacto na qualidade da solução final e modelos tradicionais de representação textual, como a Bag-of-Words (BoW), limitam-se apenas ao léxico impossibilitando a distinção de documentos com vocabulário semelhante e ideias diferentes sobre um mesmo assunto. Problemas de diferentes níveis de complexidade semântica possuem determinadas características que influenciam diretamente no desempenho de tarefas de classificação. Nesse sentido, o uso de informações emanticamente mais ricas em conjunto com a representação tradicional BoW permite atingir resultados mais eficazes em tarefas de Mineração de Textos. Expressões do domínio são consideradas informações enriquecidas que carregam consigo um certo nível semântico. A representação generalized of Expressions of Domain (BoED) é construída a partir e listas de termos do domínio e identificadores de classe, que geram as expressões do domínio e pode ser aplicada em diversas áreas do conhecimento como forma de informação semanticamente enriquecida. Com o propósito geral de avançar as pesquisas na área de Mineração de Textos e melhorar resultados de classificação de nível semâmantico usando informações enriquecidas, nesta tese de doutorado foram desenvolvidas e a avaliadas as seguintes abordagens: (i) proposta de três diferentes versões das representações enriquecidas semanticamente gBoED, (ii) método de classificação semanticamente enriquecida por expressões do domínio, (iii) método semiautomático de extração de termos e construção de representação semântica baseado em regras morfossintáticas, (iv) método semiautomático de extração de termos baseado em modelos de linguagem BERT, (v) estudo de caso de classificação semântica em pedidos de acesso à informação. Os métodos foram desenvolvidos e avaliados em dez coleções de documentos diferentes, em idioma português e inglês, juntamente com as diferentes versões de representações semanticamente enriquecidas. Os resultados indicam que os métodos propostos são promissores, possibilitando melhorar a acurácia de tarefas de classificação semântica em domínio restrito, quando comparada aos resultados com o método tradicional BoW.
Title in English
Semantically enriched classification by domain expressions
Keywords in English
Terms extraction
Text mining
Text semantic classification
Text semantic representation
Abstract in English
With the increase in the amount and variety of texts in digital format, even on social networks, web, or in organizations, Text Mining techniques become essential to support the extraction of knowledge. In document classification tasks, data representation has a high impact on the quality of the final solution, and traditional models of textual representation, such as Bag-of-Words (BoW), are limited only to the lexicon making it impossible to the definition of documents with risk and different ideas on the same subject. Problems of different levels of semantic complexity have certain characteristics that directly influence the classification tasks performance. In this sense, the semantically richer use of information in conjunction with a BoW representation allows for achieving more effective results in Text Mining tasks. Domain expressions are a type of enriched information that carries with it a certain semantic level. The generalized of Expressions of Domain (BoED) representation is built from domain terms lists and class identifiers lists, which generate domain expressions and can be applied in several areas of knowledge as a form of semantically enriched information. With the general purpose of advancing semanticlevel Text Mining research and improving semantic-level classification results, this thesis has been developed and evaluated the following approaches: (i) Purpose of different versions of the semantically enriched representations gBoED, (ii) semantically enriched classification method by domain expressions, (iii) semiautomatic method of terms extraction and semantic representation construction based on morphosyntactic rules, (iv) semiautomatic method of terms extraction based on BERT language models, (v) case study of semantic classification in requests of access to information. The methods were developed and included in ten different document collections, in Portuguese and English, which can be presented as different versions of the semantically enriched representations. The results indicate that the purposed method is promising, improving accuracy results in semantic classification tasks when compared to the traditional method BoW.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2023-02-16
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2024. All rights reserved.