• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.95.2024.tde-17072024-053428
Document
Auteur
Nom complet
Raphael Bruno Amemiya
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2024
Directeur
Jury
Matioli, Sergio Russo (Président)
Belangero, Síntia Iole Nogueira
Mingroni Netto, Regina Celia
Soler, Julia Maria Pavan
Titre en portugais
Análise da ancestralidades genética da população de São Paulo
Mots-clés en portugais
Ancestralidade
Aprendizado de máquina
Bioinformática
Genética
Resumé en portugais
Os avanços da Biotecnologia possibilitaram a análise de milhares de marcadores genéticos, fornecendo informações importantes sobre ancestralidade e saúde. No contexto da ancestralidade genética, testes de DNA são importantes para identificar as origens de uma população e proporcionar aos indivíduos um maior conhecimento sobre seus antepassados. O Brasil é reconhecido por sua vasta diversidade étnica, com contribuições europeias, africanas, indígenas, asiáticas, entre outras. Essa diversidade étnica apresenta desafios na inferência da ancestralidade. Neste contexto, a aplicação de técnicas de bioinformática é importante para a análise de dados genéticos e a elaboração de modelos para inferir a ancestralidade. Tendo isso em mente, o objetivo deste projeto foi analisar a ancestralidade global de indivíduos da população de São Paulo utilizando técnicas de aprendizado de máquina. Para esta finalidade, buscou-se bancos genéticos públicos contendo dados de diferentes populações. Os dados foram processados e estruturados para serem aplicados em modelos não supervisionados e supervisionados. Neste projeto, foram implementados modelos supervisionados em Python com base na Estimativa de Máxima Verossimilhança. Os modelos criados também foram combinados usando abordagens de previsão em conjunto, que combinam os resultados de diferentes modelos. A capacidade dos modelos em inferir a ancestralidade de 23 grupos populacionais foi avaliada com validação cruzada estratificada e amostras simuladas. A raiz do erro quadrático médio (RMSE) foi calculada entre as proporções inferidas e esperadas de ancestralidade com amostras simuladas. O modelo com menor valor médio de RMSE teve uma média de precisão e sensibilidade na validação de 96,0% e 94,3%, respectivamente. Este modelo foi usado para inferir a ancestralidade de 411 indivíduos de São Paulo. Considerando apenas os grupos continentais com maiores proporções, foi inferida, em média 77,5% de ancestralidade europeia, 10,3% africana, 7,4% nativa americana e 4,1% de leste asiática. As análises realizadas neste projeto exemplificam a eficácia da combinação de mais de um modelo na inferência de ancestralidade genética, assim como o uso de técnicas de aprendizado de máquina como ferramenta para compreender a diversidade de populações complexas, como a de São Paulo.
Titre en anglais
Genetic ancestry analysis of the population of São Paulo
Mots-clés en anglais
Ancestry
Bioinformatics
Genetics
Machine learning
Resumé en anglais
Advances in biotechnology have enabled the analysis of thousands of genetic markers, providing important information about ancestry and health. In the context of genetic ancestry, DNA tests are important for identifying the origins of a population and providing individuals with better knowledge about their ancestors. Brazil is known for its vast ethnic diversity, with contributions from European, African, Native American, Asian, and other populations. This ethnic diversity represents a challenge in inferring ancestry. In this context, the development and application of bioinformatics techniques are important for genetic data analysis and the development of models to infer ancestry. With these in mind, the goal of this project was to analyze the genetic ancestry of individuals from the São Paulo population using machine learning models. For this purpose, public genetic databases with diverse populations were selected. The data were processed and structured to be applied with unsupervised and supervised models. In this project, supervised models were implemented in Python based on Maximum Likelihood Estimation. The developed models were also combined into ensemble models. The ability of the model to infer the ancestry of 23 population groups was evaluated using stratified cross validation, and simulated samples. The root mean squared error (RMSE) was calculated between the predicted and expected proportions of ancestry using the simulated samples. The model with the lowest value of mean RMSE had an average precision, and sensitivity of 96.0% and 94.3%, respectively. This model was used to infer ancestry of 411 individuals from São Paulo. Considering only continental groups with the highest proportions, it was inferred an average of 77.5% for European ancestry, 10.3% for African ancestry, 7.4% for Native American ancestry and 4.1% for East Asian ancestry. The analyses conducted in this project exemplify the effectiveness of the combination of models in inferring genetic ancestry, as well as the use of machine learning models as a tool to better comprehend the diversity of complex population, such as the population of São Paulo.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2024-07-23
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.