Implementação de uma abordagem híbrida utilizando modelagem comparativa e ab initio para predição de estruturas tridimensionais de proteínas contendo múltiplos domínios com conectores flexíveis

Honorato, Rodrigo Vargas

doi:10.11606/T.95.2016.tde-04012016-152835

Accueil

Services

Thèse de Doctorat

DOI

https://doi.org/10.11606/T.95.2016.tde-04012016-152835

Document

Thèse de Doctorat

Auteur

Honorato, Rodrigo Vargas (Catálogo USP)

Nom complet

Rodrigo Vargas Honorato

Adresse Mail

Unité de l'USP

Interunidades em Bioinformática

Domain de Connaissance

Bio-informatics

Date de Soutenance

2015-11-17

Editeur

São Paulo, 2015

Directeur

Oliveira, Paulo Sérgio Lopes de (Catálogo USP)

Jury

Oliveira, Paulo Sérgio Lopes de (Président)
Ambrósio, André Luís Berteli
Dardenne, Laurent Emmanuel
Delbem, Alexandre Cláudio Botazzo
Tinós, Renato

Titre en portugais

Implementação de uma abordagem híbrida utilizando modelagem comparativa e ab initio para predição de estruturas tridimensionais de proteínas contendo múltiplos domínios com conectores flexíveis

Mots-clés en portugais

Interação proteína-proteína
Modelagem molecular
Proteínas multidomínio

Resumé en portugais

Domínio proteico é uma sequência de aminoácidos evolutivamente conservada e funcionalmente independente. Um dos aspectos mais importantes do estudo de uma proteína que contem múltiplos domínios é o entendimento da comunicação, entre os diferentes domínios, e seu papel biológico. Essa comunicação em maior parte é feita pela interação direta entre domínios. A interação poderia ser tratada como uma clássica interação proteína-proteína. Entretanto, proteínas multidomínio possuem restrições determinadas por suas regiões conectoras. Os conectores interdomínio impõem restrições e limitam espaço conformacional dos domínios. Apresentamos aqui o MAD, uma rotina capaz de obter modelos tridimensionais de alta resolução para proteínas, contendo qualquer número de domínios, a partir de sua sequencia primária. Os domínios conservados são identificados utilizando a base de domínios conservados (CDD) e seus limites são utilizados para definir as regiões conectoras. É criado um ensamble de possíveis dobramentos dos conectores e sua distribuição de distâncias C/N-terminais são utilizadas como restrição espacial na busca pela interação entre os domínios.Os modelos dos domínios são obtidos por uma modelagem comparativa. Foi implementada uma heurística, capaz de lidar com a natureza combinatorial dos múltiplos domínios e com a necessidade imposta pela limitação computacional de realizar o docking dos domínios em forma de pares. Todas combinações de domínios são submetidas as rotinas de docking. Aplica-se filtro de distância e energético, excluindo as conformações que apresentam distância C/N-terminal entre domínios maior do que o valor máximo observado no ensamble de conectores e seleciona as conformações energeticamente mais favoráveis. As conformações são submetidas a uma rotina de agrupamento hierárquico baseada em sua similaridade estrutural. Para a segunda fase as conformações selecionadas são pareadas com seu domínio complementar e ressubmetidas a rotina de docking até que todas as fases tenham sido completadas. Foi criado um conjunto de testes a partir do Protein Data Bank contendo 54 proteínas multidomínio para que a rotina de docking do MAD fosse comparada com outros softwares utilizados pela comunidade cientifica, mostrou-se superior ou equivalente aos métodos testados. A capacidade de utilizar dados experimentais foi demostrada através da proposição de um modelo da forma ativa da enzima tirosina fosfatase 2, nunca observado experimentalmente. A rotina de docking foi expandida paralelamente em uma aplicação standalone e utilizada na resolução de diversos problemas biológicos. Concluímos que a inovação metodológica proposta pelo MAD é de grande valia para a modelagem molecular e tem potencial de gerar uma nova perspectiva a respeito da interação de proteína multidomínio, visto que é possível analisar essas proteínas em sua plenitude e não como domínios separados.

Titre en anglais

Implementation of a hybrid approach using comparative and ab initio modelling to predict the three dimensional structure of proteins containing multiple domains and flexible connectors

Mots-clés en anglais

Molecular modelling
Multidomain proteins
Protein-protein interaction

Resumé en anglais

Protein domain is an evolutionary conserved and functionally independent amino acid sequence. One of the most important aspects of the study of a protein that contains multiple domains is the understanding of communication between the different areas, and their biological role. This communication is made mostly by direct interaction between domains. The interaction could be treated as a classical protein-protein interaction. However, multidomain proteins have certain restrictions for its connector regions. The intra connectors impose restrictions and limit conformational space of the domains. We present the MAD, a routine able to get three-dimensional models of high-resolution protein, containing any number of domains, from its primary sequence. The conserved domains are identified using the basic conserved domains database (CDD) and its boundaries are used to define the connector regions. This creates a ensemble of possible folding of the connectors and distribution of distances C/N-terminals are used as spatial restriction in the search for interaction between domains.Os models of the domains are obtained by comparative modelling. A heuristic able to handle the combinatorial nature of the multiple areas and the need imposed by the computer to perform the limitation of the docking areas as pairs was implemented. All combinations of domains are referred to the docking routines. Distance and energy filters are applied, excluding conformations that have C/N-terminal domains distances larger than the maximum value observed in the connectors ensemble and selects the most favourable energy conformations. Conformations are subjected to hierarchical clustering routine based on their structural similarity. For the second phase, the selected conformations are paired with its complementary domain and resubmitted to the docking routine until all phases have been completed. A test set has been created from the Protein Data Bank containing 54 multidomain proteins so that the docking routine of MAD could be compared with other software used by the scientific community, it has been shown to be superior or equivalent to the tested methods. The ability to use experimental data was demonstrated by proposing a model of the active form of tyrosine phosphatase enzyme 2, never observed experimentally. The docking routine was expanded in a standalone application and used in solving various biological problems. We conclude that the methodological innovation proposed by the MAD is very useful for molecular modelling and has the potential to generate a new perspective on multidomain protein interaction as you can analyse these proteins in its entirety and not as separate domains.

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

TeseDD_RVH_final.pdf (23.42 Mbytes)

Date de Publication

2016-03-10

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.