• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tesis Doctoral
DOI
https://doi.org/10.11606/T.3.2024.tde-11042024-081949
Documento
Autor
Nombre completo
Érico Correia da Silva
Dirección Electrónica
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Paulo, 2024
Director
Tribunal
Sato, Liria Matsumoto (Presidente)
Corrêa, Pedro Luiz Pizzigatti
Senger, Hermes
Song, Siang Wun
Souza, Paulo Sergio Lopes de
Título en portugués
Exploração da localidade dos dados e locks distribuídos para leitura e escrita em um sistema de arquivos para Big Data ou computação científica;
Palabras clave en portugués
Análise de dados científicos
Big Data
Gerenciamento de lock distribuído
Localidade dos dados
Sistemas de arquivo distribuído
Resumen en portugués
O Big Data tem revolucionado a exploração de dados em larga escala. Ao mesmo tempo, clusters HPC são usados em simulações científicas com resoluções cada vez mais altas, utilizando um volume de dados que vem crescendo de forma acentuada. Embora façam uso de sistemas de arquivo distribuídos mais robustos, clusters HPC movimentam o dado pela rede durante o processamento, enquanto frameworks de Big Data exploram a localidade dos dados para processá-los sem movimentação pela rede, utilizando hardware de baixo custo. Para promover o uso simultâneo de um mesmo cluster por aplicações científicas e processamento de Big Data, este trabalho propõe um novo sistema de arquivos distribuído, o AwareFS. Baseado no padrão POSIX, o AwareFS possui uma arquitetura escalável e resiliente, usando um protocolo de escrita local para explorar a localidade dos dados mesmo durante atualizações. Essa nova tecnologia de armazenamento permite reescrita e acesso randômico, utilizando um sistema distribuído de controle de locks para garantir consistência e flexibilidade no acesso concorrente de múltiplos clientes, tanto na leitura quanto na escrita. Resultados obtidos com benchmarks de mercado comprovaram a eficiência do AwareFS em diferentes perfis de leitura e escrita, sequencial e randômica, demonstrando o benefício do protocolo de escrita local e a escalabilidade acrescentando servidores. O AwareFS contribui para a convergência de tecnologias, possibilitando o uso de um mesmo cluster, mesmo de baixo custo, em cargas de trabalho de Big Data, computação científica e aplicações tradicionais.
Título en inglés
Untitled in english
Palabras clave en inglés
Big Data
Data locality
Distributed file systems
Distributed lock management, Scientific data analysis
Hadoop
Resumen en inglés
Big Data has revolutionized the exploration of data on a large scale. Simultaneously, HPC clusters are employed in scientific simulations with increasingly higher resolutions, utilizing a rapidly growing volume of data. While they make use of more robust distributed file systems, HPC clusters transfer data across the network during processing, whereas Big Data frameworks leverage data locality to process them without network movement, utilizing low-cost hardware. To promote the simultaneous use of the same cluster for scientific applications and Big Data processing, this work proposes a new distributed file system, AwareFS. Based on the POSIX standard, AwareFS features a scalable and resilient architecture, using a local write protocol to exploit data locality even during updates. This novel storage technology enables rewriting and random access, employing a distributed lock control system to ensure consistency and flexibility in concurrent access by multiple clients, both in reading and writing. Results obtained from market benchmarks have validated the efficiency of AwareFS across different read and write profiles, sequential and random, demonstrating the benefits of the local write protocol and the scalability by adding servers. AwareFS contributes to the convergence of technologies, enabling the use of the same, even low-cost, cluster in Big Data workloads, scientific computing, and traditional applications.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2024-04-15
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2024. Todos los derechos reservados.