• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tesis Doctoral
DOI
10.11606/T.95.2011.tde-27072011-105810
Documento
Autor
Nombre completo
Fabricio Martins Lopes
Dirección Electrónica
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Paulo, 2011
Director
Tribunal
Cesar Junior, Roberto Marcondes (Presidente)
Brentani, Helena Paula
Hirata Junior, Roberto
Martins Junior, David Corrêa
Reis, Eduardo Moraes Rego
Título en portugués
Redes complexas de expressão gênica: síntese, identificação, análise e aplicações
Palabras clave en portugués
entropia
entropia de Tsallis
inferência de redes
reconhecimento de padrões
redes complexas
redes de regulação gênica
seleção de características
validação
Resumen en portugués
Os avanços na pesquisa em biologia molecular e bioquímica permitiram o desenvolvimento de técnicas capazes de extrair informações moleculares de milhares de genes simultaneamente, como DNA Microarrays, SAGE e, mais recentemente RNA-Seq, gerando um volume massivo de dados biológicos. O mapeamento dos níveis de transcrição dos genes em larga escala é motivado pela proposição de que o estado funcional de um organismo é amplamente determinado pela expressão de seus genes. No entanto, o grande desafio enfrentado é o pequeno número de amostras (experimentos) com enorme dimensionalidade (genes). Dessa forma, se faz necessário o desenvolvimento de novas técnicas computacionais e estatísticas que reduzam o erro de estimação intrínseco cometido na presença de um pequeno número de amostras com enorme dimensionalidade. Neste contexto, um foco importante de pesquisa é a modelagem e identificação de redes de regulação gênica (GRNs) a partir desses dados de expressão. O objetivo central nesta pesquisa é inferir como os genes estão regulados, trazendo conhecimento sobre as interações moleculares e atividades metabólicas de um organismo. Tal conhecimento é fundamental para muitas aplicações, tais como o tratamento de doenças, estratégias de intervenção terapêutica e criação de novas drogas, bem como para o planejamento de novos experimentos. Nessa direção, este trabalho apresenta algumas contribuições: (1) software de seleção de características; (2) nova abordagem para a geração de Redes Gênicas Artificiais (AGNs); (3) função critério baseada na entropia de Tsallis; (4) estratégias alternativas de busca para a inferência de GRNs: SFFS-MR e SFFS-BA; (5) investigação biológica das redes gênicas envolvidas na biossíntese de tiamina, usando a Arabidopsis thaliana como planta modelo. O software de seleção de características consiste de um ambiente de código livre, gráfico e multiplataforma para problemas de bioinformática, que disponibiliza alguns algoritmos de seleção de características, funções critério e ferramentas de visualização gráfica. Em particular, implementa um método de inferência de GRNs baseado em seleção de características. Embora existam vários métodos propostos na literatura para a modelagem e identificação de GRNs, ainda há um problema muito importante em aberto: como validar as redes identificadas por esses métodos computacionais? Este trabalho apresenta uma nova abordagem para validação de tais algoritmos, considerando três aspectos principais: (a) Modelo para geração de Redes Gênicas Artificiais (AGNs), baseada em modelos teóricos de redes complexas, os quais são usados para simular perfis temporais de expressão gênica; (b) Método computacional para identificação de redes gênicas a partir de dados temporais de expressão; e (c) Validação das redes identificadas por meio do modelo AGN. O desenvolvimento do modelo AGN permitiu a análise e investigação das características de métodos de inferência de GRNs, levando ao desenvolvimento de um estudo comparativo entre quatro métodos disponíveis na literatura. A avaliação dos métodos de inferência levou ao desenvolvimento de novas metodologias para essa tarefa: (a) uma função critério, baseada na entropia de Tsallis, com objetivo de inferir os inter-relacionamentos gênicos com maior precisão; (b) uma estratégia alternativa de busca para a inferência de GRNs, chamada SFFS-MR, a qual tenta explorar uma característica local das interdependências regulatórias dos genes, conhecida como predição intrinsecamente multivariada; e (c) uma estratégia de busca, interativa e flutuante, que baseia-se na topologia de redes scale-free, como uma característica global das GRNs, considerada como uma informação a priori, com objetivo de oferecer um método mais adequado para essa classe de problemas e, com isso, obter resultados com maior precisão. Também é objetivo deste trabalho aplicar a metodologia desenvolvida em dados biológicos, em particular na identificação de GRNs relacionadas a funções específicas de Arabidopsis thaliana. Os resultados experimentais, obtidos a partir da aplicação das metodologias propostas, mostraram que os respectivos ganhos de desempenho foram significativos e adequados para os problemas a que foram propostos.
Título en inglés
Gene expression complex networks: synthesis, identification, analysis and applications
Palabras clave en inglés
complex networks
entropy
feature selection
gene regulatory networks
network inference
pattern recognition
Tsallis entropy
validation
Resumen en inglés
Thanks to recent advances in molecular biology and biochemistry, allied to an ever increasing amount of experimental data, the functional state of thousands of genes can now be extracted simultaneously by using methods such as DNA microarrays, SAGE, and more recently RNA-Seq, generating a massive volume of biological data. The mapping of gene transcription levels at large scale is motivated by the proposition that information of the functional state of an organism is broadly determined by its gene expression. However, the main limitation faced is the small number of samples (experiments) with huge dimensionalities (genes). Thus, it is necessary to develop new computational and statistics techniques to reduce the inherent estimation error committed in the presence of a small number of samples with large dimensionality. In this context, particularly important related investigations are the modeling and identification of gene regulatory networks from expression data sets. The main objective of this research is to infer how genes are regulated, bringing knowledge about the molecular interactions and metabolic activities of an organism. Such a knowledge is fundamental for many applications, such as disease treatment, therapeutic intervention strategies and drugs design, as well as for planning high-throughput new experiments. In this direction, this work presents some contributions: (1) feature selection software; (2) new approach for the generation of artificial gene networks (AGN); (3) criterion function based on Tsallis entropy; (4) alternative search strategies for GRNs inference: SFFS-MR and SFFS-BA; (5) biological investigation of GRNs involved in the thiamine biosynthesis by adopting the Arabidopsis thaliana as a model plant. The feature selection software is an open-source multiplataform graphical environment for bioinformatics problems, which supports many feature selection algorithms, criterion functions and graphic visualization tools. In particular, a feature selection method for GRNs inference is also implemented in the software. Although there are several methods proposed in the literature for the modeling and identification of GRNs, an important open problem regards: how to validate such methods and its results? This work presents a new approach for validation of such algorithms by considering three main aspects: (a) Artificial Gene Networks (AGNs) model generation through theoretical models of complex networks, which is used to simulate temporal expression data; (b) computational method for GRNs identification from temporal expression data; and (c) Validation of the identified AGN-based network through comparison with the original network. Through the development of the AGN model was possible the analysis and investigation of the characteristics of GRNs inference methods, leading to the development of a comparative study of four inference methods available in literature. The evaluation of inference methods led to the development of new methodologies for this task: (a) a new criterion function based on Tsallis entropy, in order to infer the genetic inter-relationships with better precision; (b) an alternative search strategy for the GRNs inference, called SFFS-MR, which tries to exploit a local property of the regulatory gene interdependencies, which is known as intrinsically multivariate prediction; and (c) a search strategy, interactive and floating, which is based on scale-free network topology, as a global property of the GRNs, which is considered as a priori information, in order to provide a more appropriate method for this class of problems and thereby achieve results with better precision. It is also an objective of this work, to apply the developed methodology in biological data, particularly in identifying GRNs related to specific functions of the Arabidopsis thaliana. The experimental results, obtained from the application of the proposed methodologies, indicate that the respective performances of each methodology were significant and adequate to the problems that have been proposed.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
tesefinalfabricio.pdf (10.35 Mbytes)
Fecha de Publicación
2011-08-09
 
ADVERTENCIA: El material descrito abajo se refiere a los trabajos derivados de esta tesis o disertación. El contenido de estos documentos es responsabilidad del autor de la tesis o disertación.
  • LOPES, Fabrício M., CESAR JR., Roberto M., and COSTA, Luciano Da F.. Gene Expression Complex Networks : Synthesis, Identification, and Analysis [doi:10.1089/cmb.2010.0118]. Journal of Computational Biology [online], 2011, vol. 18, n. 10, p. 1353-1367.
  • LOPES, Fabrício, DE OLIVEIRA, Evaldo A, and CESAR, Roberto M. Inference of gene regulatory networks from time series by Tsallis entropy [doi:10.1186/1752-0509-5-61]. BMC Systems Biology [online], 2011, vol. 5, n. 1, p. 61.
  • LOPES, Fabrício, MARTINS, David, and CESAR, Roberto M. Feature selection environment for genomic applications [doi:10.1186/1471-2105-9-451]. BMC Bioinformatics [online], 2008, vol. 9, n. 1, p. 451.
  • LOPES, Fabricio M., MARTINS, David C., and CESAR, Roberto M.. Comparative study of GRNS inference methods based on feature selection by mutual information [doi:10.1109/GENSIPS.2009.5174334]. In 2009 IEEE International Workshop on Genomic Signal Processing and Statistics [online], Minneapolis, MN, USA, 2009. Minneapolis, MN, USA : IEEE, 2009. p. 1-4. ISBN 978-1-4244-4761-9.
  • LOPES, Fabricio M., et al. SFFS-MR : A Floating Search Strategy for GRNs Inference. In DIJKSTRA, Tjeerd M. H., et al. Pattern Recognition in Bioinformatics [doi:10.1007/978-3-642-16001-1_35]. Editor. Berlin, Heidelberg : Springer Berlin Heidelberg, 2010. chap. 35. p. 407-418. Lecture Notes in Computer Science.
  • LOPES, Fabricio M., F. COSTA, Luciano, and CESAR JR, Roberto M.. AGN Simulation and Validation Model. In BAZZAN, Ana L. C., CRAVEN, Mark, and MARTINS, Natália F.. Advances in Bioinformatics and Computational Biology [doi:10.1007/978-3-540-85557-6_17]. Editor. Berlin, Heidelberg : Springer Berlin Heidelberg, 2008. chap. 17. p. 169-173. Lecture Notes in Computer Science.
  • LOPES, Fabricio M., OLIVEIRA, Evaldo A., and CESAR, Roberto M.. Analysis of the GRNs Inference by Using Tsallis Entropy and a Feature Selection Approach. In BAYRO-CORROCHANO, Eduardo, and EKLUNDH, Jan-Olof. Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications [doi:10.1007/978-3-642-10268-4_55]. Editor. Berlin, Heidelberg : Springer Berlin Heidelberg, 2009. chap. 55. p. 473-480. Lecture Notes in Computer Science.
Todos los derechos de la tesis/disertación pertenecen a los autores
Centro de Informática de São Carlos
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2020. Todos los derechos reservados.