Evaluating similarity in DBMSs: Towards query optimization

Eleutério, Igor Alberte Rodrigues

doi:10.11606/D.55.2024.tde-23072024-143549

Accueil

Services

Mémoire de Maîtrise

DOI

https://doi.org/10.11606/D.55.2024.tde-23072024-143549

Document

Mémoire de Maîtrise

Auteur

Eleutério, Igor Alberte Rodrigues (Catálogo USP)

Nom complet

Igor Alberte Rodrigues Eleutério

Adresse Mail

Unité de l'USP

Instituto de Ciências Matemáticas e de Computação

Domain de Connaissance

Informatique et Mathématique Computationnelle

Date de Soutenance

2024-05-22

Editeur

São Carlos, 2024

Directeur

Traina Junior, Caetano (Catálogo USP)

Jury

Traina Junior, Caetano (Président)
Barioni, Maria Camila Nardini
Bueno, Renato
Sousa, Elaine Parros Machado de

Titre en anglais

Evaluating similarity in DBMSs: Towards query optimization

Mots-clés en anglais

Gist R-tree
Metric access methods
Optimization
Relational database management systems
Similarity queries

Resumé en anglais

RDBMSs are omnipresent systems that store and retrieve data in diverse scenarios. They are good at dealing with scalar data, such as numbers, small strings, and dates, for which the Identity (=,≠) and Order relations (≤, ≥,<,>) are helpful. However, they struggle with complex data like images, videos, and audio tracks. For this kind of data, Identity and Order relations are not meaningful. In this context, the Similarity Queries are noteworthy because they are an approach to comparing and evaluating complex objects. Two noteworthy similarity queries are Range and k-NN. Many works in the literature implement systems to perform similarity queries. However, they have limitations, such as not using RDBMS structures to allow traditional queries, not implementing indexes, or requiring changes in SQL commands to operate similarity queries. In this masters research, we implemented two systems: MIGUE-Sim and CoSIM-Gres, each one with its own contributions to literature. MIGUE-Sim is focused on implementing similarity queries using only native resources of Postgres. With this system, we evaluated different ways to represent a k-NN query in plain SQL, and our proposed query is up to 10% faster than our main competitor. Also, we used the native Gist R-tree index to perform k-NN query, and it achieved a performance speed-up of up to 96% than our competitor. The CoSIM-Gres is focused on implementing three different access methods to perform similarity queries in RDBMS: Sequential Access, MAM Slim-tree, and Gist R-tree. To the best of our knowledge, this is the first in- depth discussion of the performance of similarity queries involving different access methods in RDBMS. We evaluated different cardinalities, dimensionalities, and distance functions, and our results point that i) distance functions of the Minkowski family do not impact the access methods performance significantly; ii) When the expected number of elements retrieved is low compared with the total number of elements in the table (around 5%), the MAM is much better than Sequential Access; iii) When the expected number of elements retrieved by the query is up to 50% of the dataset, the MAM is better than Sequential Access; otherwise, it is better to perform a Sequential Access; iv) When the Gist R-tree is available, it is better than MAM Slim-tree and Sequential Access to retrieve up to 20% of the dataset. Our results are relevant to future work on optimizing similarity queries in RDBMS.

Titre en portugais

Avaliando similaridade em SGBDs: Rumo à otimização de consultas

Mots-clés en portugais

Consultas por similaridade
Gist R-tree
Métodos de Acesso Métricos
Otimização
Sistemas Gerenciadores de Bases de Dados Relacionais

Resumé en portugais

Sistemas Gerenciadores de Banco de Dados Relacionais (SGBDRs) são sistemas onipresentes que armazenam e recuperam dados em diversos cenários. Eles são adequados para lidar com dados escalares, como números, strings curtas e datas, para os quais as relações de Identidade (=, ≠) e Ordem (≤, ≥, < , >) são úteis. No entanto, eles enfrentam dificuldades com dados complexos como imagens, vídeos e trilhas de áudio. Para este tipo de dado, as relações de Identidade e Ordem não são significativas. Nesse contexto, as Consultas por Similaridade são notáveis por serem uma abordagem para comparar e avaliar objetos complexos. Duas consultas de similaridade dignas de nota são Range e k-NN. Muitos trabalhos na literatura implementam sistemas para realizar consultas de similaridade. No entanto, eles possuem limitações, como não utilizar estruturas de SGBDR para permitir consultas tradicionais, não implementar índices ou exigir alterações nos comandos SQL para operar consultas de similaridade. Nesta dissertação de mestrado, implementamos dois sistemas: MIGUE-Sim e CoSIM-Gres, cada um com suas próprias contribuições para a literatura. O MIGUE-Sim está focado na implementação de consultas de similaridade usando apenas recursos nativos do Postgres. Com esse sistema, avaliamos diferentes maneiras de representar uma consulta k-NN em SQL puro, e nossa consulta proposta é até 10% mais rápida do que nosso principal concorrente. Além disso, usamos o índice Gist R-tree nativo para realizar consultas k-NN, e ele atingiu uma aceleração de desempenho de até 96% em relação ao nosso concorrente. O CoSIM-Gres está focado na implementação de três métodos de acesso diferentes para realizar consultas de similaridade em SGBDR: Acesso Sequencial, MAM Slim-tree e Gist R-tree. Até onde sabemos, esta é a primeira discussão aprofundada sobre o desempenho de consultas de similaridade envolvendo diferentes métodos de acesso em SGBDR. Avaliamos diferentes cardinalidades, dimensionalidades e funções de distância, e nossos resultados apontam que: i) as funções de distância da família Minkowski não impactam significativamente o desempenho dos métodos de acesso; ii) Quando o número esperado de elementos recuperados é baixo em comparação com o número total de elementos na tabela (cerca de 5%), o MAM é muito melhor do que o Acesso Sequencial; iii) Quando o número esperado de elementos recuperados pela consulta é de até 50% do conjunto de dados, o MAM é melhor do que o Acesso Sequencial; caso contrário, é melhor realizar um Acesso Sequencial; iv) Quando a Gist R-tree está disponível, é melhor do que MAM Slim-tree e Acesso Sequencial para recuperar até 20% do conjunto de dados. Nossos resultados são relevantes para trabalhos futuros sobre otimização de consultas de similaridade em SGBDR.

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

IgorAlberteRodriguesEleuterio_ME_revisada.pdf (11.52 Mbytes)

Date de Publication

2024-07-23

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.