Métodos Bayesianos aplicados em taxonomia molecular

Villanueva Talavera, Edwin Rafael

doi:10.11606/D.18.2007.tde-03102007-105125

Accueil

Services

Mémoire de Maîtrise

DOI

https://doi.org/10.11606/D.18.2007.tde-03102007-105125

Document

Mémoire de Maîtrise

Auteur

Villanueva Talavera, Edwin Rafael (Catálogo USP)

Nom complet

Edwin Rafael Villanueva Talavera

Adresse Mail

Unité de l'USP

Escola de Engenharia de São Carlos

Domain de Connaissance

Traitement du Signal de l'Instrumentation

Date de Soutenance

2007-08-31

Editeur

São Carlos, 2007

Directeur

Maciel, Carlos Dias (Catálogo USP)

Jury

Maciel, Carlos Dias (Président)
Hruschka Junior, Estevam Rafael
Oliveira, Vilma Alves de

Titre en portugais

Métodos Bayesianos aplicados em taxonomia molecular

Mots-clés en portugais

Agrupamento
Agrupamento hierárquico
Modelos gráficos probabilísticos
Modelos probabilísticos
Taxonomia molecular

Resumé en portugais

Neste trabalho são apresentados dois métodos de agrupamento de dados visados para aplicações em taxonomia molecular. Estes métodos estão baseados em modelos probabilísticos, o que permite superar alguns problemas apresentados nos métodos não probabilísticos existentes, como a dificuldade na escolha da métrica de distância e a falta de tratamento e aproveitamento do conhecimento a priori disponível. Os métodos apresentados combinam por meio do teorema de Bayes a informação extraída dos dados com o conhecimento a priori que se dispõe, razão pela qual são denominados métodos Bayesianos. O primeiro método, método de agrupamento hierárquico Bayesiano, está baseado no algoritmo HBC (Hierarchical Bayesian Clustering). Este método constrói uma hierarquia de partições (dendrograma) baseado no critério da máxima probabilidade a posteriori de cada partição. O segundo método é baseado em um tipo de modelo gráfico probabilístico conhecido como redes Gaussianas condicionais, o qual foi adaptado para problemas de agrupamento. Ambos métodos foram avaliados em três bancos de dados donde se conhece a rótulo da classe. Os métodos foram usados também em um problema de aplicação real: a taxonomia de uma coleção brasileira de estirpes de bactérias do gênero Bradyrhizobium (conhecidas por sua capacidade de fixar o 'N IND.2' do ar no solo). Este banco de dados é composto por dados genotípicos resultantes da análise do RNA ribossômico. Os resultados mostraram que o método hierárquico Bayesiano gera dendrogramas de boa qualidade, em alguns casos superior que o melhor dos algoritmos hierárquicos analisados. O método baseado em redes gaussianas condicionais também apresentou resultados aceitáveis, mostrando um adequado aproveitamento do conhecimento a priori sobre as classes tanto na determinação do número ótimo de grupos, quanto no melhoramento da qualidade dos agrupamentos.

Titre en anglais

Bayesian methods applied in molecular taxonomy

Mots-clés en anglais

Clustering
Hierarchical clustering
Molecular taxonomy
Probabilistic graphical models
Probabilistic models

Resumé en anglais

In this work are presented two clustering methods thought to be applied in molecular taxonomy. These methods are based in probabilistic models which overcome some problems observed in traditional clustering methods such as the difficulty to know which distance metric must be used or the lack of treatment of available prior information. The proposed methods use the Bayes theorem to combine the information of the data with the available prior information, reason why they are called Bayesian methods. The first method implemented in this work was the hierarchical Bayesian clustering, which is an agglomerative hierarchical method that constructs a hierarchy of partitions (dendogram) guided by the criterion of maximum Bayesian posterior probability of the partition. The second method is based in a type of probabilistic graphical model knows as conditional Gaussian network, which was adapted for data clustering. Both methods were validated in 3 datasets where the labels are known. The methods were used too in a real problem: the clustering of a brazilian collection of bacterial strains belonging to the genus Bradyrhizobium, known by their capacity to transform the nitrogen ('N IND.2') of the atmosphere into nitrogen compounds useful for the host plants. This dataset is formed by genetic data resulting of the analysis of the ribosomal RNA. The results shown that the hierarchical Bayesian clustering method built dendrograms with good quality, in some cases, better than the other hierarchical methods. In the method based in conditional Gaussian network was observed acceptable results, showing an adequate utilization of the prior information (about the clusters) to determine the optimal number of clusters and to improve the quality of the groups.

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

Defesa_Edwin_final.pdf (1.57 Mbytes)

Date de Publication

2007-10-19

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.