Implementação de uma abordagem híbrida utilizando modelagem comparativa e ab initio para predição de estruturas tridimensionais de proteínas contendo múltiplos domínios com conectores flexíveis

Honorato, Rodrigo Vargas

doi:10.11606/T.95.2016.tde-04012016-152835

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Tese de Doutorado

DOI

https://doi.org/10.11606/T.95.2016.tde-04012016-152835

Documento

Tese de Doutorado

Autor

Honorato, Rodrigo Vargas (Catálogo USP)

Nome completo

Rodrigo Vargas Honorato

E-mail

Unidade da USP

Interunidades em Bioinformática

Área do Conhecimento

Bioinformática

Data de Defesa

2015-11-17

Imprenta

São Paulo, 2015

Orientador

Oliveira, Paulo Sérgio Lopes de (Catálogo USP)

Banca examinadora

Oliveira, Paulo Sérgio Lopes de (Presidente)
Ambrósio, André Luís Berteli
Dardenne, Laurent Emmanuel
Delbem, Alexandre Cláudio Botazzo
Tinós, Renato

Título em português

Implementação de uma abordagem híbrida utilizando modelagem comparativa e ab initio para predição de estruturas tridimensionais de proteínas contendo múltiplos domínios com conectores flexíveis

Palavras-chave em português

Interação proteína-proteína
Modelagem molecular
Proteínas multidomínio

Resumo em português

Domínio proteico é uma sequência de aminoácidos evolutivamente conservada e funcionalmente independente. Um dos aspectos mais importantes do estudo de uma proteína que contem múltiplos domínios é o entendimento da comunicação, entre os diferentes domínios, e seu papel biológico. Essa comunicação em maior parte é feita pela interação direta entre domínios. A interação poderia ser tratada como uma clássica interação proteína-proteína. Entretanto, proteínas multidomínio possuem restrições determinadas por suas regiões conectoras. Os conectores interdomínio impõem restrições e limitam espaço conformacional dos domínios. Apresentamos aqui o MAD, uma rotina capaz de obter modelos tridimensionais de alta resolução para proteínas, contendo qualquer número de domínios, a partir de sua sequencia primária. Os domínios conservados são identificados utilizando a base de domínios conservados (CDD) e seus limites são utilizados para definir as regiões conectoras. É criado um ensamble de possíveis dobramentos dos conectores e sua distribuição de distâncias C/N-terminais são utilizadas como restrição espacial na busca pela interação entre os domínios.Os modelos dos domínios são obtidos por uma modelagem comparativa. Foi implementada uma heurística, capaz de lidar com a natureza combinatorial dos múltiplos domínios e com a necessidade imposta pela limitação computacional de realizar o docking dos domínios em forma de pares. Todas combinações de domínios são submetidas as rotinas de docking. Aplica-se filtro de distância e energético, excluindo as conformações que apresentam distância C/N-terminal entre domínios maior do que o valor máximo observado no ensamble de conectores e seleciona as conformações energeticamente mais favoráveis. As conformações são submetidas a uma rotina de agrupamento hierárquico baseada em sua similaridade estrutural. Para a segunda fase as conformações selecionadas são pareadas com seu domínio complementar e ressubmetidas a rotina de docking até que todas as fases tenham sido completadas. Foi criado um conjunto de testes a partir do Protein Data Bank contendo 54 proteínas multidomínio para que a rotina de docking do MAD fosse comparada com outros softwares utilizados pela comunidade cientifica, mostrou-se superior ou equivalente aos métodos testados. A capacidade de utilizar dados experimentais foi demostrada através da proposição de um modelo da forma ativa da enzima tirosina fosfatase 2, nunca observado experimentalmente. A rotina de docking foi expandida paralelamente em uma aplicação standalone e utilizada na resolução de diversos problemas biológicos. Concluímos que a inovação metodológica proposta pelo MAD é de grande valia para a modelagem molecular e tem potencial de gerar uma nova perspectiva a respeito da interação de proteína multidomínio, visto que é possível analisar essas proteínas em sua plenitude e não como domínios separados.

Título em inglês

Implementation of a hybrid approach using comparative and ab initio modelling to predict the three dimensional structure of proteins containing multiple domains and flexible connectors

Palavras-chave em inglês

Molecular modelling
Multidomain proteins
Protein-protein interaction

Resumo em inglês

Protein domain is an evolutionary conserved and functionally independent amino acid sequence. One of the most important aspects of the study of a protein that contains multiple domains is the understanding of communication between the different areas, and their biological role. This communication is made mostly by direct interaction between domains. The interaction could be treated as a classical protein-protein interaction. However, multidomain proteins have certain restrictions for its connector regions. The intra connectors impose restrictions and limit conformational space of the domains. We present the MAD, a routine able to get three-dimensional models of high-resolution protein, containing any number of domains, from its primary sequence. The conserved domains are identified using the basic conserved domains database (CDD) and its boundaries are used to define the connector regions. This creates a ensemble of possible folding of the connectors and distribution of distances C/N-terminals are used as spatial restriction in the search for interaction between domains.Os models of the domains are obtained by comparative modelling. A heuristic able to handle the combinatorial nature of the multiple areas and the need imposed by the computer to perform the limitation of the docking areas as pairs was implemented. All combinations of domains are referred to the docking routines. Distance and energy filters are applied, excluding conformations that have C/N-terminal domains distances larger than the maximum value observed in the connectors ensemble and selects the most favourable energy conformations. Conformations are subjected to hierarchical clustering routine based on their structural similarity. For the second phase, the selected conformations are paired with its complementary domain and resubmitted to the docking routine until all phases have been completed. A test set has been created from the Protein Data Bank containing 54 multidomain proteins so that the docking routine of MAD could be compared with other software used by the scientific community, it has been shown to be superior or equivalent to the tested methods. The ability to use experimental data was demonstrated by proposing a model of the active form of tyrosine phosphatase enzyme 2, never observed experimentally. The docking routine was expanded in a standalone application and used in solving various biological problems. We conclude that the methodological innovation proposed by the MAD is very useful for molecular modelling and has the potential to generate a new perspective on multidomain protein interaction as you can analyse these proteins in its entirety and not as separate domains.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

TeseDD_RVH_final.pdf (23.42 Mbytes)

Data de Publicação

2016-03-10

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.