• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Master's Dissertation
DOI
10.11606/D.95.2017.tde-31102017-102826
Document
Author
Full name
George Willian Condomitti Epamino
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
São Paulo, 2017
Supervisor
Committee
Setubal, João Carlos (President)
Hashimoto, Ronaldo Fumio
Pinheiro, Daniel Guariz
Title in Portuguese
Alinhamento múltiplo de genomas de eucariotos com montagens altamente fragmentadas
Keywords in Portuguese
Alinhamento de genomas
Bioinformática
Genômica comparativa
Abstract in Portuguese
O advento do sequenciamento de nova geração (NGS - Next Generation Sequencing) nos últimos anos proporcionou um aumento expressivo no número de projetos genômicos. De maneira simplificada, as máquinas sequenciadoras geram como resultado fragmentos de DNA que são utilizados por programas montadores de genoma. Esses programas tentam juntar os fragmentos de DNA de modo a obter a representação completa da sequência genômica (por exemplo um cromossomo) da espécie sendo sequenciada. Em alguns casos o processo de montagem pode ser executado com maior facilidade para organismos com genomas de tamanhos pequenos (por exemplo bactérias com genoma em torno de 5Mpb), através de pipelines que automatizam a maior parte da tarefa. Um cenário mais complicado surge quando a espécie possui genoma com grande comprimento (acima de 1Gpb) e elementos repetidos, como no caso de alguns eucariotos. Nesses casos o resultado da montagem é geralmente composto por milhares de fragmentos (chamados de contigs), uma ordem de magnitude muito superior ao número de cromossomos estimado para um organismo (comumente da ordem de dois dígitos), dando origem a uma montagem altamente fragmentada. Uma atividade comum nesses projetos é a comparação da montagem com a de outro genoma como forma de validação e também para identificação de regiões conservadas entre os organismos. Embora o problema de alinhamento par-a-par de genomas grandes seja bem contornado por abordagens existentes, o alinhamento múltiplo (AM) de genomas grandes em estado fragmentado ainda é uma tarefa de difícil resolução, por demandar alto custo computacional e grande quantidade de tempo. Este trabalho consiste em uma metologia para fazer alinhamento múltiplo de genomas grandes de eucariotos com montagens altamente fragmentadas. Nossa implementação, baseada em alinhamento estrela, se mostrou capaz de fazer AM de grupos de montagens com diversos níveis de fragmentação. O maior deles, um conjunto de 5 genomas de répteis, levou 14 horas de processamento para fornecer um mapa de regiões conservadas entre as espécies. O algoritmo foi implementado em um software que batizamos de FROG (FRagment Overlap multiple Genome alignment), de código aberto e disponível sob licença GPLv3.
Title in English
Multiple alignment of large eukaryotic genomes with highly fragmented assemblies
Keywords in English
Bioinformatics
Comparative genomics
Genome alignment
Abstract in English
The advent of Next Generation Sequencing (NGS) in recent years has led to an expressive increase in the number of genomic projects. In a simplified way, sequencing machines generate DNA fragments that are used by genome assembler software. These programs try to merge the DNA fragments to obtain the complete representation of the genomic sequence (for example a chromosome) of the species being sequenced. In some cases the assembling process can be performed more easily for organisms with small-sized genomes (e.g. bacteria with a genome length of approximately 5Mpb) through pipelines that automate most of the task. A trickier scenario arises when the species has a very large genome (above 1Gbp) and complex elements, as in the case of some eukaryotes. In those cases the result of the assembly is usually composed of thousands of fragments (called contigs), an order of magnitude much higher than the number of chromosomes estimated for an organism (usually in the order two digits), giving rise to a highly fragmented assembly. A common activity in these projects is the comparison of the assembly with that of another genome as a form of validation and also to identify common elements between organisms. Although the problem of pairwise alignment of large genomes is well circumvented by existing approaches, multiple alignment of large genomes with highly fragmented assemblies remains a difficult task due to its time and computational requirements. This work consists of a methodology for doing multiple alignment of large eukaryotic genomes with highly fragmented assemblies, a problem that few solutions are able to cope with. Our star alignment-based implementation, was able to accomplish a MSA of groups of assemblies with different levels of fragmentation. The largest of them, a set of 5 reptilian genomes where the B. jararaca assembly (800,000 contigs, N50 of 3.1Kbp) was used as anchor, took 14 hours of execution time to provide a map of conserved regions among the participating species. The algorithm was implemented in a software named FROG (FRagment Overlap multiple Genome alignment), available under the General Public License v3 (GPLv3) terms.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
dissertacao.pdf (4.31 Mbytes)
Publishing Date
2017-12-07
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2020. All rights reserved.