A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português

Martins, Rayssa Küllian

doi:10.11606/D.45.2018.tde-20230727-113522

Accueil

Services

Mémoire de Maîtrise

DOI

https://doi.org/10.11606/D.45.2018.tde-20230727-113522

Document

Mémoire de Maîtrise

Auteur

Martins, Rayssa Küllian (Catálogo USP)

Nom complet

Rayssa Küllian Martins

Adresse Mail

Unité de l'USP

Instituto de Matemática e Estatística

Domain de Connaissance

Informatique

Date de Soutenance

2018-07-30

Editeur

São Paulo, 2018

Directeur

Finger, Marcelo (Catálogo USP)

Titre en portugais

A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português

Mots-clés en portugais

Aprendizado Computacional
Mineração De Dados
Processamento De Linguagem Natural
Redes Sociais
Sistemas Colaborativos

Resumé en portugais

A ironia é uma expressão de linguagem comumente utilizada e interpretada por seres humanos. Porém, esta simplicidade não é perceptível quando se trata de um diálogo textual, tornando com- plexa sua definição formal e consequente detecção. Ao treinar um modelo de classificação preditiva para realizar Análise de Sentimento em conversas em redes sociais ou avaliações de produtos em sites de comércio eletrônico, e.g., exemplos rotulados binariamente não são suficientes e tem seu de- sempenho acentuadamente reduzido quando um usuário é irônico. Por este motivo, a ironia textual se torna um ruído ou um inversor de polaridade no classificador e o problema é agravado quando se trata do idioma Português, onde não existem córpus públicos anotados para estas ocorrências. Este trabalho apresenta um estudo relacionado à ironia do ponto de vista da Linguística Com- putacional, abordando desde a discussão acerca de sua definição até nuances implícitas do texto e sugestões de como processá-las. A complexidade deste tema é abordada no decorrer do texto e seus desafios peculiares são evidenciados através de exemplos, apontando, inclusive, possíveis lacunas de pesquisa. A proposta desta pesquisa é apresentar um conjunto de técnicas de Aprendizado de Máquina e Processamento Natural de Linguagem para realizar a detecção automática de ironias textuais, tendo como principal aplicação a detecção aplicada às opiniões postadas publicamente no Twitter utilizando a hashtag #metrosp no contexto de metrô e trens da CPTM na cidade de São Paulo, Brasil. Duas abordagens são comparadas ao longo de 51 experimentos e 900 testes: a classificação de componentes linguísticos com Processamento de Língua Natural através do texto dos tweets, e a classificação de novos atributos que representam este texto a partir de principais características identificadas na análise exploratória. O melhor desempenho foi encontrado com a utilização do al- goritmo de Bayes com 96 por cento de f1 na classificação de atributos em uma base balanceada de 538 tweets, cujo desempenho também foi o mais estável com uma média de 0.8014 em todos os experimentos realizados

Titre en anglais

The detection of irony2019s conversational implicatures in social media through machine learning applied to portuguese language

Resumé en anglais

Irony is an expression language commonly used and interpreted by human beings. However, this simplicity is not quite distinguishable when talking about a textual dialogue, making it puzzling to formally define and detect. When training a predictive classification model to provide Sentiment Analysis in social media chats or product reviews on any retail website, e.g., binary labeled records are not enough and has its performance sharply reduced when some customer is ironic. Hence, textual irony becomes a noise or a polarity inverter within the classifier and the issue gets worse when the language is Portuguese, where there is no public labeled corpus for these scenario. This project presents a study of works related to irony in the Computational Linguistics point of view, approaching its philosophical concept, textual implied nuances and proposals for how to process it. The complexity of this subject is presented in the course of the text and its peculiar challenges are pointed out through examples, also indicating possible research gaps. The proposal of this research is to offer a set of Machine Learning and Natural Language Processing techniques to accomplish the automatic detection of textual irony, whereas Twitters reviews will be its main application and the main goal is to collect all tweets with the hashtag #metrosp for the context of subways in the city of Sao Paulo, Brazil. Two approaches are compared across 41 experiments and 900 tests: the classification of linguistic components with Natural Language Processing using only the text of the tweets, and the classifi- cation of new attributes built to represent this text with its main identified characteristics during the exploratory analysis. The best performance was found using the Bayes algorithm with 96 percent of f1 when classifying the attributes on a balanced training set of 538 tweets, which performance was also the most stable one with a average of 0.8014 in all the performed experiments

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

MartinsRayssaKullian.pdf (9.12 Mbytes)

Date de Publication

2023-07-27

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.