Master's Dissertation
Full name
Eduardo Pereira Fressato
Knowledge Area
Date of Defense
São Carlos, 2019
Manzato, Marcelo Garcia (President)
Durão, Frederico Araújo
Isotani, Seiji
Lacerda, Anisio Mendes
Title in Portuguese
Incorporação de metadados semânticos para recomendação no cenário de partida fria
Keywords in Portuguese
Dados abertos conectados
Fatoração de matrizes
Filtragem colaborativa
Partida fria
Sistemas de recomendação
Abstract in Portuguese
Com o propósito de auxiliar os usuários no processo de tomada de decisão, diversos tipos de sistemas Web passaram a incorporar sistemas de recomendação. As abordagens mais utilizadas são a filtragem baseada em conteúdo, que recomenda itens com base nos seus atributos, a filtragem colaborativa, que recomenda itens de acordo com o comportamento de usuários similares, e os sistemas híbridos, que combinam duas ou mais técnicas. A abordagem baseada em conteúdo apresenta o problema de análise limitada de conteúdo, o qual pode ser reduzido com a utilização de informações semânticas. A filtragem colaborativa, por sua vez, apresenta o problema da partida fria, esparsidade e alta dimensionalidade dos dados. Dentre as técnicas de filtragem colaborativa, as baseadas em fatoração de matrizes são geralmente mais eficazes porque permitem descobrir as características subjacentes às interações entre usuários e itens. Embora sistemas de recomendação usufruam de diversas técnicas de recomendação, a maioria das técnicas apresenta falta de informações semânticas para representarem os itens do acervo. Estudos na área de sistemas de recomendação têm analisado a utilização de dados abertos conectados provenientes da Web dos Dados como fonte de informações semânticas. Dessa maneira, este trabalho tem como objetivo investigar como relações semânticas computadas a partir das bases de conhecimentos disponíveis na Web dos Dados podem beneficiar sistemas de recomendação. Este trabalho explora duas questões neste contexto: como a similaridade de itens pode ser calculada com base em informações semânticas e; como semelhanças entre os itens podem ser combinadas em uma técnica de fatoração de matrizes, de modo que o problema da partida fria de itens possa ser efetivamente amenizado. Como resultado, originou-se uma métrica de similaridade semântica que aproveita a hierarquia das bases de conhecimento e obteve um desempenho superior às outras métricas na maioria das bases de dados. E também o algoritmo Item-MSMF que utiliza informações semânticas para amenizar o problema de partida fria e obteve desempenho superior em todas as bases de dados avaliadas no cenário de partida fria.
Title in English
Incorporation of semantic metadata for recommendation in the cold start scenario
Keywords in English
Cold start
Collaborative filtering
Linked open data
Matrix factorization
Recommender systems
Abstract in English
In order to assist users in the decision-making process, several types of web systems started to incorporate recommender systems. The most commonly used approaches are content-based filtering, which recommends items based on their attributes; collaborative filtering, which recommends items according to the behavior of similar users; and hybrid systems that combine both techniques. The content-based approach presents the problem of limited content analysis, which can be reduced by using semantic information. The collaborative filtering, presents the problem of cold start, sparsity and high dimensionality of the data. Among the techniques of collaborative filtering, those based on matrix factorization are generally more effective because they allow us to discover the underlying characteristics of interactions between users and items. Although recommender systems have several techniques, most of them lack semantic information to represent the items in the collection. Studies in this area have analyzed linked open data from the Web of data as source of semantic information. In this way, this work aims to investigate how semantic relationships computed from the knowledge bases available in the Data Web can benefit recommendation systems. This work explores two questions in this context: how the similarity of items can be calculated based on semantic information and; as similarities between items can be combined in a matrix factorization technique, so that the cold start problem of items can be effectively softened. As a result, a semantic similarity metric was developed that leverages the knowledge base hierarchy and outperformed other metrics in most databases. Also the Item-MSMF algorithm that uses semantic information to soften the cold start problem and obtained superior performance in all databases evaluated in the cold start scenario.
