A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português

Martins, Rayssa Küllian

doi:10.11606/D.45.2018.tde-20230727-113522

Início

Servicios

Disertación de Maestría

DOI

https://doi.org/10.11606/D.45.2018.tde-20230727-113522

Documento

Disertación de Maestría

Autor

Martins, Rayssa Küllian (Catálogo USP)

Nombre completo

Rayssa Küllian Martins

Dirección Electrónica

Instituto/Escuela/Facultad

Instituto de Matemática e Estatística

Área de Conocimiento

Informática

Fecha de Defensa

2018-07-30

Publicación

São Paulo, 2018

Director

Finger, Marcelo (Catálogo USP)

Título en portugués

A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português

Palabras clave en portugués

Aprendizado Computacional
Mineração De Dados
Processamento De Linguagem Natural
Redes Sociais
Sistemas Colaborativos

Resumen en portugués

A ironia é uma expressão de linguagem comumente utilizada e interpretada por seres humanos. Porém, esta simplicidade não é perceptível quando se trata de um diálogo textual, tornando com- plexa sua definição formal e consequente detecção. Ao treinar um modelo de classificação preditiva para realizar Análise de Sentimento em conversas em redes sociais ou avaliações de produtos em sites de comércio eletrônico, e.g., exemplos rotulados binariamente não são suficientes e tem seu de- sempenho acentuadamente reduzido quando um usuário é irônico. Por este motivo, a ironia textual se torna um ruído ou um inversor de polaridade no classificador e o problema é agravado quando se trata do idioma Português, onde não existem córpus públicos anotados para estas ocorrências. Este trabalho apresenta um estudo relacionado à ironia do ponto de vista da Linguística Com- putacional, abordando desde a discussão acerca de sua definição até nuances implícitas do texto e sugestões de como processá-las. A complexidade deste tema é abordada no decorrer do texto e seus desafios peculiares são evidenciados através de exemplos, apontando, inclusive, possíveis lacunas de pesquisa. A proposta desta pesquisa é apresentar um conjunto de técnicas de Aprendizado de Máquina e Processamento Natural de Linguagem para realizar a detecção automática de ironias textuais, tendo como principal aplicação a detecção aplicada às opiniões postadas publicamente no Twitter utilizando a hashtag #metrosp no contexto de metrô e trens da CPTM na cidade de São Paulo, Brasil. Duas abordagens são comparadas ao longo de 51 experimentos e 900 testes: a classificação de componentes linguísticos com Processamento de Língua Natural através do texto dos tweets, e a classificação de novos atributos que representam este texto a partir de principais características identificadas na análise exploratória. O melhor desempenho foi encontrado com a utilização do al- goritmo de Bayes com 96 por cento de f1 na classificação de atributos em uma base balanceada de 538 tweets, cujo desempenho também foi o mais estável com uma média de 0.8014 em todos os experimentos realizados

Título en inglés

The detection of irony2019s conversational implicatures in social media through machine learning applied to portuguese language

Resumen en inglés

Irony is an expression language commonly used and interpreted by human beings. However, this simplicity is not quite distinguishable when talking about a textual dialogue, making it puzzling to formally define and detect. When training a predictive classification model to provide Sentiment Analysis in social media chats or product reviews on any retail website, e.g., binary labeled records are not enough and has its performance sharply reduced when some customer is ironic. Hence, textual irony becomes a noise or a polarity inverter within the classifier and the issue gets worse when the language is Portuguese, where there is no public labeled corpus for these scenario. This project presents a study of works related to irony in the Computational Linguistics point of view, approaching its philosophical concept, textual implied nuances and proposals for how to process it. The complexity of this subject is presented in the course of the text and its peculiar challenges are pointed out through examples, also indicating possible research gaps. The proposal of this research is to offer a set of Machine Learning and Natural Language Processing techniques to accomplish the automatic detection of textual irony, whereas Twitters reviews will be its main application and the main goal is to collect all tweets with the hashtag #metrosp for the context of subways in the city of Sao Paulo, Brazil. Two approaches are compared across 41 experiments and 900 tests: the classification of linguistic components with Natural Language Processing using only the text of the tweets, and the classifi- cation of new attributes built to represent this text with its main identified characteristics during the exploratory analysis. The best performance was found using the Bayes algorithm with 96 percent of f1 when classifying the attributes on a balanced training set of 538 tweets, which performance was also the most stable one with a average of 0.8014 in all the performed experiments

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

MartinsRayssaKullian.pdf (9.12 Mbytes)

Fecha de Publicación

2023-07-27

Trabajos derivados

ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.