Dissertação de Mestrado
DOI
https://doi.org/10.11606/D.45.2015.tde-20230727-113602
Documento
Autor
Nome completo
Suzana de Siqueira Santos
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Paulo, 2015
Orientador
Título em português
Análise de redes biológicas: estudo comparativo de medidas de dependência e uma ferramenta computacional para discriminar grafos
Palavras-chave em português
Inferência Estatística
Redes Complexas
Resumo em português
Redes complexas de interações moleculares descrevem o fenótipo celular. Assim, identicar as propriedades de redes que diferenciam o estado doente e saudável de uma célula pode trazer esclarecimentos sobre os mecanismos envolvidos em uma doença. Para estudar esse tipo de rede, são utilizados dados de apenas parte da população. Assim, métodos de inferência estatística são fundamentais no estudo de redes biológicas. Neste trabalho, nos focamos no estudo de grafos de coexpressão, em que os vértices correspondem a genes e as arestas indicam associações estatísticas entre os níveis de expressão genética. Na primeira parte do trabalho, realizamos um estudo comparativo entre medidas de dependência estatís- tica utilizadas para construir grafos de coexpressão. Por meio de simulações e aplicações das medidas de dependência em dados de microarranjos de DNA oriundos de tecidos tumorais, identicamos potencialidades e limitações dos métodos estudados (o coeciente de correlação de Pearson, o coeciente de correlação de Spearman, o coeciente de correlação de Kendall, a correlação de distância, a medida de Heller-Heller-Gorne, a medida D de Hoeding, a informação mútua e o coeciente de informação máxima). Na segunda parte do trabalho, desenvolvemos testes estatísticos para comparar propriedades estruturais de grafos de co- expressão. Nesses testes utilizamos medidas de redes complexas para caracterizar os grafos, como a centralidade de grau, a centralidade de betweenness, a centralidade de proximidade, a centralidade de autovetor e o coeciente de clustering e duas medidas recentemente propostas que se baseiam no espectro do grafo (conjunto de autovalores da matriz de adjacência). A escolha do espectro se baseou no fato de ele descrever diversas propriedades estruturais do grafo, sendo considerado uma caracterização mais completa do que as principais medidas de redes complexas. As medidas baseadas no espetro utilizadas neste trabalho são: a entropia espectral (medida de aleatoriedade de um grafo) e a divergência de Jensen-Shannon entre as distribuições dos espectros dos grafos. Os testes desenvolvidos foram disponibilizados em um pacote do R chamado CoGA (Co-expression Graph Analyzer ). Uma aplicação do CoGA é ilustrada em dados de microarranjos de DNA de dois tipos de câncer no cérebro. Nós mostramos com simulações que os testes propostos controlam a taxa de falsos positivos e que o poder estatístico cresce à medida que aumentamos a proporção de arestas modicadas na rede. Nossos resultados sugerem que a ferramenta apresentada (CoGA) pode ser útil na identicação de conjuntos de genes associados a uma doença.
Título em inglês
Analysis of biological networks: comparative study of statistical dependence measures and a computational tool to discriminate graphs
Resumo em inglês
Complex networks of molecular interactions describe the cellular phenotype. Therefore, identifying network properties that are dierent between healthy and diseased cellular state may elucidate the mechanisms that are involved in a disease. Studies of that kind of network usually analyze data from part of the population. Thus, statistical inference methods are fundamental to study biological networks. In this work, we focus on the analysis of co-expression graphs, in which the vertices correspond to genes and the edges indicate statistical associati- ons between the gene expression levels. In the rst part of this work, we present a comparative study of statistical dependence measures used to construct co-expression graphs. We have performed simulation experiments and applications of the methods on microarray data from tumor tissues to evaluate the strengths and limitations of the studied measures (the Pearson's correlation coecient, the Spearman's correlation coecient, the Kendall's correlation coecient, the distance correlation, the Heller-Heller-Gorne measure, the Hoeding's D measure, the mutual information, and the maximum information coecient). In the second part of the work, we have developed statistical tests to compare structural properties of co-expression graphs. To characterize a graph, we used complex network measures, such as the degree centrality, the betweenness centrality, the closeness centrality, the eigenvector centrality and the clustering coecient, and two recently proposed measures that are based on the graph spectrum (set of eigenvalues of the graph adjacency matrix). A motivation to use the spectrum of a graph is based on the fact that it describes several structural properties of a graph and is considered a more complete graph characterization than the usual complex network measures. The spectrum-based measures used in this work are the spectral entropy (measure of the graph randomness), and the Jensen-Shannon divergence between the distributions of the graph spectra. To make the proposed methods available, we have developed an R package called CoGA (Co-expression Graph Analyzer). We illustrate an ap- plication of the CoGA package on microarray data from two types of brain tumor. We show by simulation experiments that the proposed tests control the false positive rate and that their power is proportional to the number of changes in the network. Our results suggest that the CoGA package may be useful for the identication of gene sets associated with a disease.
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2023-07-27