On bipartite decision forests

Detalhes bibliográficos
Autor(a) principal: Silva, Pedro de Carvalho Braga Ilidio
Data de Publicação: 2024
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/76/76133/tde-01072024-082057/
Resumo: The present study investigates decision forest algorithms for predicting interactions in bipartite networks.We concentrate on examples of such problems in the biological domain, such as drugprotein interactions, microRNA-gene interactions or long non-coding RNA-protein interactions. Notwithstanding, the proposed methods encompass the broad range of tasks satisfying i) the goal is to predict interactions between two entities; ii) the interacting pairs are composed of two different types of entities; and iii) each type of entity has its own set of input features. We refer to this paradigm as bipartite interaction learning or bipartite learning. Predicting interactions in such networks has fundamental challenges. For instance, the number of possible interactions is often very large in comparison to the number of known interactions. As a result, the data is frequently sparse, and negative annotations are unreliable. We explore a class of decision forest models specifically designed to address these challenges, that we broadly call bipartite forests. First, we demonstrate how these trees can be adapted to yield a log n speedup in training time. We also propose using weighted-neighbors approaches to determine each leafs output, which resulted in improved generalization. Finally, we introduce semi-supervised impurity functions to bipartite forests. These functions result in trees that also consider clusters of instances in the feature space, rather than only their labels. This is shown to improve the forests resilience to the missing annotations. Our models display highly-competitive performance across ten interaction prediction datasets.We believe the proposed methods can be a crucial step in developing effective and scalable machine learning models for interaction prediction. Further adaptations of these models could also impact other domains, such as recommendation systems, multilabel learning and weak-label learning.
id USP_7ea293d1e93c4d8ab322afc9ea170f9d
oai_identifier_str oai:teses.usp.br:tde-01072024-082057
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling On bipartite decision forestsFlorestas de decisão bipartidasAprendizado bipartidoAprendizado positivo-não rotuladoBipartite learningDecision forestsFlorestas de decisãoInteraction predictionPositive-unlabeled learningPredição de interaçõesThe present study investigates decision forest algorithms for predicting interactions in bipartite networks.We concentrate on examples of such problems in the biological domain, such as drugprotein interactions, microRNA-gene interactions or long non-coding RNA-protein interactions. Notwithstanding, the proposed methods encompass the broad range of tasks satisfying i) the goal is to predict interactions between two entities; ii) the interacting pairs are composed of two different types of entities; and iii) each type of entity has its own set of input features. We refer to this paradigm as bipartite interaction learning or bipartite learning. Predicting interactions in such networks has fundamental challenges. For instance, the number of possible interactions is often very large in comparison to the number of known interactions. As a result, the data is frequently sparse, and negative annotations are unreliable. We explore a class of decision forest models specifically designed to address these challenges, that we broadly call bipartite forests. First, we demonstrate how these trees can be adapted to yield a log n speedup in training time. We also propose using weighted-neighbors approaches to determine each leafs output, which resulted in improved generalization. Finally, we introduce semi-supervised impurity functions to bipartite forests. These functions result in trees that also consider clusters of instances in the feature space, rather than only their labels. This is shown to improve the forests resilience to the missing annotations. Our models display highly-competitive performance across ten interaction prediction datasets.We believe the proposed methods can be a crucial step in developing effective and scalable machine learning models for interaction prediction. Further adaptations of these models could also impact other domains, such as recommendation systems, multilabel learning and weak-label learning.O presente estudo investiga algoritmos de floresta de decisão para prever interações em redes bipartidas. Concentra-se em exemplos de tais problemas no domínio biológico, como interações fármaco-proteína, interações microRNA-gene ou interações entre moléculas de RNA longo não codificante e proteínas. No entanto, os métodos propostos abrangem uma ampla gama de tarefas de aprendizado, caracterizadas por i) o objetivo é prever interações entre duas entidades; ii) os pares de interação são compostos por dois tipos diferentes de entidades; e iii) cada tipo de entidade possui seu próprio conjunto de características de entrada. Refere-se a este paradigma como aprendizado de interações bipartidas, ou aprendizado bipartido. Prever interações em tais redes nos apresenta desafios fundamentais. Por exemplo, o número de interações possíveis é frequentemente muito superior ao número de interações conhecidas. Como resultado, os dados são muitas vezes esparsos, e as anotações negativas são incertas. Exploramos uma classe de florestas de decisão especificamente projetadas para enfrentar esses desafios, que chamamos de florestas bipartidas em geral. Primeiro, demonstramos como essas árvores podem ser adaptadas para obter uma melhora logarítmica no tempo de treinamento. Também propomos o uso de abordagens de vizinhos ponderados para determinar a saída de cada folha, resultando em melhora na capacidade de generalização dos modelos. Finalmente, introduzimos funções de impureza semi-supervisionadas para florestas bipartidas. Essas funções resultam em árvores cientes da densidade do espaço de características, em vez de apenas considerar os rótulos para o crescimento. Mostra-se que isso melhora a resiliência das florestas às anotações faltantes. Nossos modelos exibem desempenho altamente competitivo em dez conjuntos de dados de previsão de interação. Acreditamos que os métodos propostos podem ser um passo crucial no desenvolvimento de modelos de aprendizado de máquina eficazes e escaláveis para prever interações. Adaptações adicionais desses modelos também podem impactar domínios vizinhos, como sistemas de recomendação, aprendizado multi-rótulo e aprendizado de rótulos fracos.Biblioteca Digitais de Teses e Dissertações da USPCerri, RicardoThiemann, Otavio HenriqueSilva, Pedro de Carvalho Braga Ilidio2024-04-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/76/76133/tde-01072024-082057/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2024-08-22T19:55:04Zoai:teses.usp.br:tde-01072024-082057Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-08-22T19:55:04Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv On bipartite decision forests
Florestas de decisão bipartidas
title On bipartite decision forests
spellingShingle On bipartite decision forests
Silva, Pedro de Carvalho Braga Ilidio
Aprendizado bipartido
Aprendizado positivo-não rotulado
Bipartite learning
Decision forests
Florestas de decisão
Interaction prediction
Positive-unlabeled learning
Predição de interações
title_short On bipartite decision forests
title_full On bipartite decision forests
title_fullStr On bipartite decision forests
title_full_unstemmed On bipartite decision forests
title_sort On bipartite decision forests
author Silva, Pedro de Carvalho Braga Ilidio
author_facet Silva, Pedro de Carvalho Braga Ilidio
author_role author
dc.contributor.none.fl_str_mv Cerri, Ricardo
Thiemann, Otavio Henrique
dc.contributor.author.fl_str_mv Silva, Pedro de Carvalho Braga Ilidio
dc.subject.por.fl_str_mv Aprendizado bipartido
Aprendizado positivo-não rotulado
Bipartite learning
Decision forests
Florestas de decisão
Interaction prediction
Positive-unlabeled learning
Predição de interações
topic Aprendizado bipartido
Aprendizado positivo-não rotulado
Bipartite learning
Decision forests
Florestas de decisão
Interaction prediction
Positive-unlabeled learning
Predição de interações
description The present study investigates decision forest algorithms for predicting interactions in bipartite networks.We concentrate on examples of such problems in the biological domain, such as drugprotein interactions, microRNA-gene interactions or long non-coding RNA-protein interactions. Notwithstanding, the proposed methods encompass the broad range of tasks satisfying i) the goal is to predict interactions between two entities; ii) the interacting pairs are composed of two different types of entities; and iii) each type of entity has its own set of input features. We refer to this paradigm as bipartite interaction learning or bipartite learning. Predicting interactions in such networks has fundamental challenges. For instance, the number of possible interactions is often very large in comparison to the number of known interactions. As a result, the data is frequently sparse, and negative annotations are unreliable. We explore a class of decision forest models specifically designed to address these challenges, that we broadly call bipartite forests. First, we demonstrate how these trees can be adapted to yield a log n speedup in training time. We also propose using weighted-neighbors approaches to determine each leafs output, which resulted in improved generalization. Finally, we introduce semi-supervised impurity functions to bipartite forests. These functions result in trees that also consider clusters of instances in the feature space, rather than only their labels. This is shown to improve the forests resilience to the missing annotations. Our models display highly-competitive performance across ten interaction prediction datasets.We believe the proposed methods can be a crucial step in developing effective and scalable machine learning models for interaction prediction. Further adaptations of these models could also impact other domains, such as recommendation systems, multilabel learning and weak-label learning.
publishDate 2024
dc.date.none.fl_str_mv 2024-04-25
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/76/76133/tde-01072024-082057/
url https://www.teses.usp.br/teses/disponiveis/76/76133/tde-01072024-082057/
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256581379457024