• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Disertación de Maestría
DOI
https://doi.org/10.11606/D.76.2024.tde-01072024-082057
Documento
Autor
Nombre completo
Pedro de Carvalho Braga Ilidio Silva
Dirección Electrónica
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Carlos, 2024
Director
Tribunal
Cerri, Ricardo (Presidente)
Pappa, Gisele Lobo
Silva, Diego Furtado
Título en inglés
On bipartite decision forests
Palabras clave en inglés
Bipartite learning
Decision forests
Interaction prediction
Positive-unlabeled learning
Resumen en inglés
The present study investigates decision forest algorithms for predicting interactions in bipartite networks.We concentrate on examples of such problems in the biological domain, such as drugprotein interactions, microRNA-gene interactions or long non-coding RNA-protein interactions. Notwithstanding, the proposed methods encompass the broad range of tasks satisfying i) the goal is to predict interactions between two entities; ii) the interacting pairs are composed of two different types of entities; and iii) each type of entity has its own set of input features. We refer to this paradigm as bipartite interaction learning or bipartite learning. Predicting interactions in such networks has fundamental challenges. For instance, the number of possible interactions is often very large in comparison to the number of known interactions. As a result, the data is frequently sparse, and negative annotations are unreliable. We explore a class of decision forest models specifically designed to address these challenges, that we broadly call bipartite forests. First, we demonstrate how these trees can be adapted to yield a log n speedup in training time. We also propose using weighted-neighbors approaches to determine each leafs output, which resulted in improved generalization. Finally, we introduce semi-supervised impurity functions to bipartite forests. These functions result in trees that also consider clusters of instances in the feature space, rather than only their labels. This is shown to improve the forests resilience to the missing annotations. Our models display highly-competitive performance across ten interaction prediction datasets.We believe the proposed methods can be a crucial step in developing effective and scalable machine learning models for interaction prediction. Further adaptations of these models could also impact other domains, such as recommendation systems, multilabel learning and weak-label learning.
Título en portugués
Florestas de decisão bipartidas
Palabras clave en portugués
Aprendizado bipartido
Aprendizado positivo-não rotulado
Florestas de decisão
Predição de interações
Resumen en portugués
O presente estudo investiga algoritmos de floresta de decisão para prever interações em redes bipartidas. Concentra-se em exemplos de tais problemas no domínio biológico, como interações fármaco-proteína, interações microRNA-gene ou interações entre moléculas de RNA longo não codificante e proteínas. No entanto, os métodos propostos abrangem uma ampla gama de tarefas de aprendizado, caracterizadas por i) o objetivo é prever interações entre duas entidades; ii) os pares de interação são compostos por dois tipos diferentes de entidades; e iii) cada tipo de entidade possui seu próprio conjunto de características de entrada. Refere-se a este paradigma como aprendizado de interações bipartidas, ou aprendizado bipartido. Prever interações em tais redes nos apresenta desafios fundamentais. Por exemplo, o número de interações possíveis é frequentemente muito superior ao número de interações conhecidas. Como resultado, os dados são muitas vezes esparsos, e as anotações negativas são incertas. Exploramos uma classe de florestas de decisão especificamente projetadas para enfrentar esses desafios, que chamamos de florestas bipartidas em geral. Primeiro, demonstramos como essas árvores podem ser adaptadas para obter uma melhora logarítmica no tempo de treinamento. Também propomos o uso de abordagens de vizinhos ponderados para determinar a saída de cada folha, resultando em melhora na capacidade de generalização dos modelos. Finalmente, introduzimos funções de impureza semi-supervisionadas para florestas bipartidas. Essas funções resultam em árvores cientes da densidade do espaço de características, em vez de apenas considerar os rótulos para o crescimento. Mostra-se que isso melhora a resiliência das florestas às anotações faltantes. Nossos modelos exibem desempenho altamente competitivo em dez conjuntos de dados de previsão de interação. Acreditamos que os métodos propostos podem ser um passo crucial no desenvolvimento de modelos de aprendizado de máquina eficazes e escaláveis para prever interações. Adaptações adicionais desses modelos também podem impactar domínios vizinhos, como sistemas de recomendação, aprendizado multi-rótulo e aprendizado de rótulos fracos.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2024-07-04
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2024. Todos los derechos reservados.