Métodos Bayesianos aplicados em taxonomia molecular

Villanueva Talavera, Edwin Rafael

doi:10.11606/D.18.2007.tde-03102007-105125

Home

Facilities

Master's Dissertation

DOI

https://doi.org/10.11606/D.18.2007.tde-03102007-105125

Document

Master's Dissertation

Author

Villanueva Talavera, Edwin Rafael (Catálogo USP)

Full name

Edwin Rafael Villanueva Talavera

E-mail

Institute/School/College

Escola de Engenharia de São Carlos

Knowledge Area

Signal Processing and Instrumentation

Date of Defense

2007-08-31

Published

São Carlos, 2007

Supervisor

Maciel, Carlos Dias (Catálogo USP)

Committee

Maciel, Carlos Dias (President)
Hruschka Junior, Estevam Rafael
Oliveira, Vilma Alves de

Title in Portuguese

Métodos Bayesianos aplicados em taxonomia molecular

Keywords in Portuguese

Agrupamento
Agrupamento hierárquico
Modelos gráficos probabilísticos
Modelos probabilísticos
Taxonomia molecular

Abstract in Portuguese

Neste trabalho são apresentados dois métodos de agrupamento de dados visados para aplicações em taxonomia molecular. Estes métodos estão baseados em modelos probabilísticos, o que permite superar alguns problemas apresentados nos métodos não probabilísticos existentes, como a dificuldade na escolha da métrica de distância e a falta de tratamento e aproveitamento do conhecimento a priori disponível. Os métodos apresentados combinam por meio do teorema de Bayes a informação extraída dos dados com o conhecimento a priori que se dispõe, razão pela qual são denominados métodos Bayesianos. O primeiro método, método de agrupamento hierárquico Bayesiano, está baseado no algoritmo HBC (Hierarchical Bayesian Clustering). Este método constrói uma hierarquia de partições (dendrograma) baseado no critério da máxima probabilidade a posteriori de cada partição. O segundo método é baseado em um tipo de modelo gráfico probabilístico conhecido como redes Gaussianas condicionais, o qual foi adaptado para problemas de agrupamento. Ambos métodos foram avaliados em três bancos de dados donde se conhece a rótulo da classe. Os métodos foram usados também em um problema de aplicação real: a taxonomia de uma coleção brasileira de estirpes de bactérias do gênero Bradyrhizobium (conhecidas por sua capacidade de fixar o 'N IND.2' do ar no solo). Este banco de dados é composto por dados genotípicos resultantes da análise do RNA ribossômico. Os resultados mostraram que o método hierárquico Bayesiano gera dendrogramas de boa qualidade, em alguns casos superior que o melhor dos algoritmos hierárquicos analisados. O método baseado em redes gaussianas condicionais também apresentou resultados aceitáveis, mostrando um adequado aproveitamento do conhecimento a priori sobre as classes tanto na determinação do número ótimo de grupos, quanto no melhoramento da qualidade dos agrupamentos.

Title in English

Bayesian methods applied in molecular taxonomy

Keywords in English

Clustering
Hierarchical clustering
Molecular taxonomy
Probabilistic graphical models
Probabilistic models

Abstract in English

In this work are presented two clustering methods thought to be applied in molecular taxonomy. These methods are based in probabilistic models which overcome some problems observed in traditional clustering methods such as the difficulty to know which distance metric must be used or the lack of treatment of available prior information. The proposed methods use the Bayes theorem to combine the information of the data with the available prior information, reason why they are called Bayesian methods. The first method implemented in this work was the hierarchical Bayesian clustering, which is an agglomerative hierarchical method that constructs a hierarchy of partitions (dendogram) guided by the criterion of maximum Bayesian posterior probability of the partition. The second method is based in a type of probabilistic graphical model knows as conditional Gaussian network, which was adapted for data clustering. Both methods were validated in 3 datasets where the labels are known. The methods were used too in a real problem: the clustering of a brazilian collection of bacterial strains belonging to the genus Bradyrhizobium, known by their capacity to transform the nitrogen ('N IND.2') of the atmosphere into nitrogen compounds useful for the host plants. This dataset is formed by genetic data resulting of the analysis of the ribosomal RNA. The results shown that the hierarchical Bayesian clustering method built dendrograms with good quality, in some cases, better than the other hierarchical methods. In the method based in conditional Gaussian network was observed acceptable results, showing an adequate utilization of the prior information (about the clusters) to determine the optimal number of clusters and to improve the quality of the groups.

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

Defesa_Edwin_final.pdf (1.57 Mbytes)

Publishing Date

2007-10-19

Derived works

WARNING: Learn what derived works are clicking here.