• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Doctoral Thesis
DOI
https://doi.org/10.11606/T.41.2022.tde-09062022-181940
Document
Author
Full name
Gabriel Nassar Reich Goldstein
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
São Paulo, 2022
Supervisor
Committee
Vibranovski, Maria Dulcetti (President)
Carareto, Cláudia Márcia Aparecida
Koerich, Leonardo Barbosa
Nakaya, Helder Takashi Imoto
Title in Portuguese
Identificação de genes novos de Drosophila utilizando machine learning
Keywords in Portuguese
Aprendizado de máquina
Genes novos
Genomas
Transcriptomas
Abstract in Portuguese
Genes novos são definidos por sua presença em um táxon e ausência em táxons irmãos. Estes genes possuem grande importância biológica e estão envolvidos em processos de alta pressão seletiva, sendo expressos em tecidos como cérebro e testículo. Há uma variedade de mecanismos genéticos que podem levar à geração de genes novos, como duplicações e retrotransposições por exemplo, mas a maioria dos genes novos é derivada de duplicações. As funções exatas destes genes nos organismos ainda estão sendo estudadas, mas alguns trabalhos já mostraram relação com resolução de conflitos sexuais, por exemplo. Apesar disto, existem uma série de características biológicas que são sabidamente diferentes entre genes novos e antigos. Um exemplo disso é o perfil de expressão destes grupos, já que genes novos se expressam majoritariamente na gametogênese masculina e genes antigos são expressos de maneira generalista. O principal método de datação de genes para identificação de genes novos utiliza sintenia, que é o fenômeno de conservação da ordem e conteúdo gênico de uma região no genoma que ocorre em espécies relacionadas, e parcimônia ao comparar genomas de espécies relacionadas para datar todos os genes de uma espécie focal. Apesar da precisão do método, ele é extremamente dependente da montagem e anotação do genoma de interesse, o que limita sua aplicação para espécies modelo que tem uma anotação manual e curada. Com estes fatos em mente, propomos neste trabalho um método de identificação de genes novos que utiliza informações biológicas para separar genes novos de antigos através do uso de machine learning. Os algoritmos de machine learning são aqueles capazes de mudar com experiência e são capazes de identificar padrões complexos e identificar classes a partir de uma diversidade de informações. Com isso, treinamos um modelo com o algoritmo de random forest na espécie modelo Drosophila melanogaster e obtivemos 0.508 de precision e 0.718 de recall com dados que geramos. Além disso, identificamos os 1523 genes novos de D. pseudoobscura utilizando o método já existente para que possamos utilizar esta espécie como segundo ponto de controle do nosso método.
Title in English
Identifying Drosophila new genes using machine learning
Keywords in English
Genomes
Machine learning
New genes
Transcriptomes
Abstract in English
New genes are defined by their presence in a taxon and absence in sibling taxa. These genes have great biological importance and are involved in processes of high selective pressure, being expressed in tissues such as the brain and testis. There are a variety of genetic mechanisms that can lead to the generation of new genes, such as duplications and retrotranspositions for example, but most new genes are derived from duplications. The exact functions of these genes in organisms are still being studied, but some work has already shown a relationship with the resolution of sexual conflicts, for example. Despite this, there are a number of biological characteristics that are known to be different between new and old genes. An example of this is the expression profile of these groups, since new genes are mostly expressed in male gametogenesis and old genes are broadly expressed. The main gene dating method for identifying new genes uses synteny, which is the phenomenon of conservation of the order and gene content of a region in the genome that occurs in related species, and parsimony when comparing genomes of related species to date all genes of a focal species. Despite the accuracy of the method, it is extremely dependent on the assembly and annotation of the genome of interest, which limits its application to model species that have a manual and curated annotation. With these facts in mind, we propose in this work a method of identifying new genes that uses biological information to separate new and old genes through the use of machine learning. Machine learning algorithms are those able to change with experience and are able to identify complex patterns and identify classes from a variety of information. With this, we trained a model with the random forest algorithm in the model species Drosophila melanogaster and obtained 0.508 precision and 0.718 recall with generated data. In addition, we identified the 1523 new genes of D. pseudoobscura using the existing method so that we can use this species as a second control point for our method.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2022-07-22
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2024. All rights reserved.