On bipartite decision forests

Silva, Pedro de Carvalho Braga Ilidio

doi:10.11606/D.76.2024.tde-01072024-082057

Accueil

Services

Mémoire de Maîtrise

DOI

https://doi.org/10.11606/D.76.2024.tde-01072024-082057

Document

Mémoire de Maîtrise

Auteur

Silva, Pedro de Carvalho Braga Ilidio (Catálogo USP)

Nom complet

Pedro de Carvalho Braga Ilidio Silva

Adresse Mail

Unité de l'USP

Instituto de Física de São Carlos

Domain de Connaissance

Física Biomolecular

Date de Soutenance

2024-04-25

Editeur

São Carlos, 2024

Directeur

Thiemann, Otavio Henrique (Catálogo USP)
Cerri, Ricardo - (Codirecteur) (Catálogo USP)

Jury

Cerri, Ricardo (Président)
Pappa, Gisele Lobo
Silva, Diego Furtado

Titre en anglais

On bipartite decision forests

Mots-clés en anglais

Bipartite learning
Decision forests
Interaction prediction
Positive-unlabeled learning

Resumé en anglais

The present study investigates decision forest algorithms for predicting interactions in bipartite networks.We concentrate on examples of such problems in the biological domain, such as drugprotein interactions, microRNA-gene interactions or long non-coding RNA-protein interactions. Notwithstanding, the proposed methods encompass the broad range of tasks satisfying i) the goal is to predict interactions between two entities; ii) the interacting pairs are composed of two different types of entities; and iii) each type of entity has its own set of input features. We refer to this paradigm as bipartite interaction learning or bipartite learning. Predicting interactions in such networks has fundamental challenges. For instance, the number of possible interactions is often very large in comparison to the number of known interactions. As a result, the data is frequently sparse, and negative annotations are unreliable. We explore a class of decision forest models specifically designed to address these challenges, that we broadly call bipartite forests. First, we demonstrate how these trees can be adapted to yield a log n speedup in training time. We also propose using weighted-neighbors approaches to determine each leafs output, which resulted in improved generalization. Finally, we introduce semi-supervised impurity functions to bipartite forests. These functions result in trees that also consider clusters of instances in the feature space, rather than only their labels. This is shown to improve the forests resilience to the missing annotations. Our models display highly-competitive performance across ten interaction prediction datasets.We believe the proposed methods can be a crucial step in developing effective and scalable machine learning models for interaction prediction. Further adaptations of these models could also impact other domains, such as recommendation systems, multilabel learning and weak-label learning.

Titre en portugais

Florestas de decisão bipartidas

Mots-clés en portugais

Aprendizado bipartido
Aprendizado positivo-não rotulado
Florestas de decisão
Predição de interações

Resumé en portugais

O presente estudo investiga algoritmos de floresta de decisão para prever interações em redes bipartidas. Concentra-se em exemplos de tais problemas no domínio biológico, como interações fármaco-proteína, interações microRNA-gene ou interações entre moléculas de RNA longo não codificante e proteínas. No entanto, os métodos propostos abrangem uma ampla gama de tarefas de aprendizado, caracterizadas por i) o objetivo é prever interações entre duas entidades; ii) os pares de interação são compostos por dois tipos diferentes de entidades; e iii) cada tipo de entidade possui seu próprio conjunto de características de entrada. Refere-se a este paradigma como aprendizado de interações bipartidas, ou aprendizado bipartido. Prever interações em tais redes nos apresenta desafios fundamentais. Por exemplo, o número de interações possíveis é frequentemente muito superior ao número de interações conhecidas. Como resultado, os dados são muitas vezes esparsos, e as anotações negativas são incertas. Exploramos uma classe de florestas de decisão especificamente projetadas para enfrentar esses desafios, que chamamos de florestas bipartidas em geral. Primeiro, demonstramos como essas árvores podem ser adaptadas para obter uma melhora logarítmica no tempo de treinamento. Também propomos o uso de abordagens de vizinhos ponderados para determinar a saída de cada folha, resultando em melhora na capacidade de generalização dos modelos. Finalmente, introduzimos funções de impureza semi-supervisionadas para florestas bipartidas. Essas funções resultam em árvores cientes da densidade do espaço de características, em vez de apenas considerar os rótulos para o crescimento. Mostra-se que isso melhora a resiliência das florestas às anotações faltantes. Nossos modelos exibem desempenho altamente competitivo em dez conjuntos de dados de previsão de interação. Acreditamos que os métodos propostos podem ser um passo crucial no desenvolvimento de modelos de aprendizado de máquina eficazes e escaláveis para prever interações. Adaptações adicionais desses modelos também podem impactar domínios vizinhos, como sistemas de recomendação, aprendizado multi-rótulo e aprendizado de rótulos fracos.

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

Dissertacao_Pedro_Ilidio.pdf (2.56 Mbytes)

Date de Publication

2024-07-04

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.