• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.55.2024.tde-23072024-143549
Document
Auteur
Nom complet
Igor Alberte Rodrigues Eleutério
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Carlos, 2024
Directeur
Jury
Traina Junior, Caetano (Président)
Barioni, Maria Camila Nardini
Bueno, Renato
Sousa, Elaine Parros Machado de
Titre en anglais
Evaluating similarity in DBMSs: Towards query optimization
Mots-clés en anglais
Gist R-tree
Metric access methods
Optimization
Relational database management systems
Similarity queries
Resumé en anglais
RDBMSs are omnipresent systems that store and retrieve data in diverse scenarios. They are good at dealing with scalar data, such as numbers, small strings, and dates, for which the Identity (=,≠) and Order relations (≤, ≥,<,>) are helpful. However, they struggle with complex data like images, videos, and audio tracks. For this kind of data, Identity and Order relations are not meaningful. In this context, the Similarity Queries are noteworthy because they are an approach to comparing and evaluating complex objects. Two noteworthy similarity queries are Range and k-NN. Many works in the literature implement systems to perform similarity queries. However, they have limitations, such as not using RDBMS structures to allow traditional queries, not implementing indexes, or requiring changes in SQL commands to operate similarity queries. In this masters research, we implemented two systems: MIGUE-Sim and CoSIM-Gres, each one with its own contributions to literature. MIGUE-Sim is focused on implementing similarity queries using only native resources of Postgres. With this system, we evaluated different ways to represent a k-NN query in plain SQL, and our proposed query is up to 10% faster than our main competitor. Also, we used the native Gist R-tree index to perform k-NN query, and it achieved a performance speed-up of up to 96% than our competitor. The CoSIM-Gres is focused on implementing three different access methods to perform similarity queries in RDBMS: Sequential Access, MAM Slim-tree, and Gist R-tree. To the best of our knowledge, this is the first in- depth discussion of the performance of similarity queries involving different access methods in RDBMS. We evaluated different cardinalities, dimensionalities, and distance functions, and our results point that i) distance functions of the Minkowski family do not impact the access methods performance significantly; ii) When the expected number of elements retrieved is low compared with the total number of elements in the table (around 5%), the MAM is much better than Sequential Access; iii) When the expected number of elements retrieved by the query is up to 50% of the dataset, the MAM is better than Sequential Access; otherwise, it is better to perform a Sequential Access; iv) When the Gist R-tree is available, it is better than MAM Slim-tree and Sequential Access to retrieve up to 20% of the dataset. Our results are relevant to future work on optimizing similarity queries in RDBMS.
Titre en portugais
Avaliando similaridade em SGBDs: Rumo à otimização de consultas
Mots-clés en portugais
Consultas por similaridade
Gist R-tree
Métodos de Acesso Métricos
Otimização
Sistemas Gerenciadores de Bases de Dados Relacionais
Resumé en portugais
Sistemas Gerenciadores de Banco de Dados Relacionais (SGBDRs) são sistemas onipresentes que armazenam e recuperam dados em diversos cenários. Eles são adequados para lidar com dados escalares, como números, strings curtas e datas, para os quais as relações de Identidade (=, ≠) e Ordem (≤, ≥, < , >) são úteis. No entanto, eles enfrentam dificuldades com dados complexos como imagens, vídeos e trilhas de áudio. Para este tipo de dado, as relações de Identidade e Ordem não são significativas. Nesse contexto, as Consultas por Similaridade são notáveis por serem uma abordagem para comparar e avaliar objetos complexos. Duas consultas de similaridade dignas de nota são Range e k-NN. Muitos trabalhos na literatura implementam sistemas para realizar consultas de similaridade. No entanto, eles possuem limitações, como não utilizar estruturas de SGBDR para permitir consultas tradicionais, não implementar índices ou exigir alterações nos comandos SQL para operar consultas de similaridade. Nesta dissertação de mestrado, implementamos dois sistemas: MIGUE-Sim e CoSIM-Gres, cada um com suas próprias contribuições para a literatura. O MIGUE-Sim está focado na implementação de consultas de similaridade usando apenas recursos nativos do Postgres. Com esse sistema, avaliamos diferentes maneiras de representar uma consulta k-NN em SQL puro, e nossa consulta proposta é até 10% mais rápida do que nosso principal concorrente. Além disso, usamos o índice Gist R-tree nativo para realizar consultas k-NN, e ele atingiu uma aceleração de desempenho de até 96% em relação ao nosso concorrente. O CoSIM-Gres está focado na implementação de três métodos de acesso diferentes para realizar consultas de similaridade em SGBDR: Acesso Sequencial, MAM Slim-tree e Gist R-tree. Até onde sabemos, esta é a primeira discussão aprofundada sobre o desempenho de consultas de similaridade envolvendo diferentes métodos de acesso em SGBDR. Avaliamos diferentes cardinalidades, dimensionalidades e funções de distância, e nossos resultados apontam que: i) as funções de distância da família Minkowski não impactam significativamente o desempenho dos métodos de acesso; ii) Quando o número esperado de elementos recuperados é baixo em comparação com o número total de elementos na tabela (cerca de 5%), o MAM é muito melhor do que o Acesso Sequencial; iii) Quando o número esperado de elementos recuperados pela consulta é de até 50% do conjunto de dados, o MAM é melhor do que o Acesso Sequencial; caso contrário, é melhor realizar um Acesso Sequencial; iv) Quando a Gist R-tree está disponível, é melhor do que MAM Slim-tree e Acesso Sequencial para recuperar até 20% do conjunto de dados. Nossos resultados são relevantes para trabalhos futuros sobre otimização de consultas de similaridade em SGBDR.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2024-07-23
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.