• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Disertación de Maestría
DOI
https://doi.org/10.11606/D.95.2024.tde-17072024-053428
Documento
Autor
Nombre completo
Raphael Bruno Amemiya
Dirección Electrónica
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Paulo, 2024
Director
Tribunal
Matioli, Sergio Russo (Presidente)
Belangero, Síntia Iole Nogueira
Mingroni Netto, Regina Celia
Soler, Julia Maria Pavan
Título en portugués
Análise da ancestralidades genética da população de São Paulo
Palabras clave en portugués
Ancestralidade
Aprendizado de máquina
Bioinformática
Genética
Resumen en portugués
Os avanços da Biotecnologia possibilitaram a análise de milhares de marcadores genéticos, fornecendo informações importantes sobre ancestralidade e saúde. No contexto da ancestralidade genética, testes de DNA são importantes para identificar as origens de uma população e proporcionar aos indivíduos um maior conhecimento sobre seus antepassados. O Brasil é reconhecido por sua vasta diversidade étnica, com contribuições europeias, africanas, indígenas, asiáticas, entre outras. Essa diversidade étnica apresenta desafios na inferência da ancestralidade. Neste contexto, a aplicação de técnicas de bioinformática é importante para a análise de dados genéticos e a elaboração de modelos para inferir a ancestralidade. Tendo isso em mente, o objetivo deste projeto foi analisar a ancestralidade global de indivíduos da população de São Paulo utilizando técnicas de aprendizado de máquina. Para esta finalidade, buscou-se bancos genéticos públicos contendo dados de diferentes populações. Os dados foram processados e estruturados para serem aplicados em modelos não supervisionados e supervisionados. Neste projeto, foram implementados modelos supervisionados em Python com base na Estimativa de Máxima Verossimilhança. Os modelos criados também foram combinados usando abordagens de previsão em conjunto, que combinam os resultados de diferentes modelos. A capacidade dos modelos em inferir a ancestralidade de 23 grupos populacionais foi avaliada com validação cruzada estratificada e amostras simuladas. A raiz do erro quadrático médio (RMSE) foi calculada entre as proporções inferidas e esperadas de ancestralidade com amostras simuladas. O modelo com menor valor médio de RMSE teve uma média de precisão e sensibilidade na validação de 96,0% e 94,3%, respectivamente. Este modelo foi usado para inferir a ancestralidade de 411 indivíduos de São Paulo. Considerando apenas os grupos continentais com maiores proporções, foi inferida, em média 77,5% de ancestralidade europeia, 10,3% africana, 7,4% nativa americana e 4,1% de leste asiática. As análises realizadas neste projeto exemplificam a eficácia da combinação de mais de um modelo na inferência de ancestralidade genética, assim como o uso de técnicas de aprendizado de máquina como ferramenta para compreender a diversidade de populações complexas, como a de São Paulo.
Título en inglés
Genetic ancestry analysis of the population of São Paulo
Palabras clave en inglés
Ancestry
Bioinformatics
Genetics
Machine learning
Resumen en inglés
Advances in biotechnology have enabled the analysis of thousands of genetic markers, providing important information about ancestry and health. In the context of genetic ancestry, DNA tests are important for identifying the origins of a population and providing individuals with better knowledge about their ancestors. Brazil is known for its vast ethnic diversity, with contributions from European, African, Native American, Asian, and other populations. This ethnic diversity represents a challenge in inferring ancestry. In this context, the development and application of bioinformatics techniques are important for genetic data analysis and the development of models to infer ancestry. With these in mind, the goal of this project was to analyze the genetic ancestry of individuals from the São Paulo population using machine learning models. For this purpose, public genetic databases with diverse populations were selected. The data were processed and structured to be applied with unsupervised and supervised models. In this project, supervised models were implemented in Python based on Maximum Likelihood Estimation. The developed models were also combined into ensemble models. The ability of the model to infer the ancestry of 23 population groups was evaluated using stratified cross validation, and simulated samples. The root mean squared error (RMSE) was calculated between the predicted and expected proportions of ancestry using the simulated samples. The model with the lowest value of mean RMSE had an average precision, and sensitivity of 96.0% and 94.3%, respectively. This model was used to infer ancestry of 411 individuals from São Paulo. Considering only continental groups with the highest proportions, it was inferred an average of 77.5% for European ancestry, 10.3% for African ancestry, 7.4% for Native American ancestry and 4.1% for East Asian ancestry. The analyses conducted in this project exemplify the effectiveness of the combination of models in inferring genetic ancestry, as well as the use of machine learning models as a tool to better comprehend the diversity of complex population, such as the population of São Paulo.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2024-07-23
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2024. Todos los derechos reservados.