• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.45.2018.tde-20230727-113522
Document
Auteur
Nom complet
Rayssa Küllian Martins
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2018
Directeur
Titre en portugais
A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português
Mots-clés en portugais
Aprendizado Computacional
Mineração De Dados
Processamento De Linguagem Natural
Redes Sociais
Sistemas Colaborativos
Resumé en portugais
A ironia é uma expressão de linguagem comumente utilizada e interpretada por seres humanos. Porém, esta simplicidade não é perceptível quando se trata de um diálogo textual, tornando com- plexa sua definição formal e consequente detecção. Ao treinar um modelo de classificação preditiva para realizar Análise de Sentimento em conversas em redes sociais ou avaliações de produtos em sites de comércio eletrônico, e.g., exemplos rotulados binariamente não são suficientes e tem seu de- sempenho acentuadamente reduzido quando um usuário é irônico. Por este motivo, a ironia textual se torna um ruído ou um inversor de polaridade no classificador e o problema é agravado quando se trata do idioma Português, onde não existem córpus públicos anotados para estas ocorrências. Este trabalho apresenta um estudo relacionado à ironia do ponto de vista da Linguística Com- putacional, abordando desde a discussão acerca de sua definição até nuances implícitas do texto e sugestões de como processá-las. A complexidade deste tema é abordada no decorrer do texto e seus desafios peculiares são evidenciados através de exemplos, apontando, inclusive, possíveis lacunas de pesquisa. A proposta desta pesquisa é apresentar um conjunto de técnicas de Aprendizado de Máquina e Processamento Natural de Linguagem para realizar a detecção automática de ironias textuais, tendo como principal aplicação a detecção aplicada às opiniões postadas publicamente no Twitter utilizando a hashtag #metrosp no contexto de metrô e trens da CPTM na cidade de São Paulo, Brasil. Duas abordagens são comparadas ao longo de 51 experimentos e 900 testes: a classificação de componentes linguísticos com Processamento de Língua Natural através do texto dos tweets, e a classificação de novos atributos que representam este texto a partir de principais características identificadas na análise exploratória. O melhor desempenho foi encontrado com a utilização do al- goritmo de Bayes com 96 por cento de f1 na classificação de atributos em uma base balanceada de 538 tweets, cujo desempenho também foi o mais estável com uma média de 0.8014 em todos os experimentos realizados
Titre en anglais
The detection of irony2019s conversational implicatures in social media through machine learning applied to portuguese language
Resumé en anglais
Irony is an expression language commonly used and interpreted by human beings. However, this simplicity is not quite distinguishable when talking about a textual dialogue, making it puzzling to formally define and detect. When training a predictive classification model to provide Sentiment Analysis in social media chats or product reviews on any retail website, e.g., binary labeled records are not enough and has its performance sharply reduced when some customer is ironic. Hence, textual irony becomes a noise or a polarity inverter within the classifier and the issue gets worse when the language is Portuguese, where there is no public labeled corpus for these scenario. This project presents a study of works related to irony in the Computational Linguistics point of view, approaching its philosophical concept, textual implied nuances and proposals for how to process it. The complexity of this subject is presented in the course of the text and its peculiar challenges are pointed out through examples, also indicating possible research gaps. The proposal of this research is to offer a set of Machine Learning and Natural Language Processing techniques to accomplish the automatic detection of textual irony, whereas Twitter’s reviews will be its main application and the main goal is to collect all tweets with the hashtag #metrosp for the context of subways in the city of Sao Paulo, Brazil. Two approaches are compared across 41 experiments and 900 tests: the classification of linguistic components with Natural Language Processing using only the text of the tweets, and the classifi- cation of new attributes built to represent this text with its main identified characteristics during the exploratory analysis. The best performance was found using the Bayes algorithm with 96 percent of f1 when classifying the attributes on a balanced training set of 538 tweets, which performance was also the most stable one with a average of 0.8014 in all the performed experiments
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2023-07-27
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.