Classificação hierárquica multirrótulo de funções de proteínas via predição de interações

Detalhes bibliográficos
Autor(a) principal: Santos, Bruna Zamith
Data de Publicação: 2020
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/15890
https://github.com/biomal/Clus-PBCT-HMC
Resumo: Proteins are macro-molecules responsible for virtually every task necessary for the maintenance of cells, having a fundamental role in the behavior and regulation of organisms. Advances in the area of Molecular Biology have allowed an almost complete listing of the proteins that make up the organisms. However, there are a large number of proteins whose function is still unknown, opening space for a new research focus in Molecular Biology. Usually, protein function prediction is performed using homology-based Bioinformatic tools, comparing a sequence with a database with many sequences belonging to previously known functions. This is a limited strategy, since it ignores the sequences' biochemical properties, and also the hierarchical relationships that may exist between the different classes. In the literature, the use of Machine Learning for the protein function prediction has shown to be promising, obtaining significant advances regarding the use of homology and other methods. Making use of Machine Learning, it is possible to model the protein function prediction problem as a Hierarchical Multi-label Classification (HMC) problem, due to the fact that protein functions are hierarchically organized and that they can occur simultaneously. This project proposes modeling the protein function prediction task as a Hierarchical Multi-label Classification problem through interaction data. Interaction data are characterized by two sets of objects, each described by their own set of features, which makes it possible to predict the interactions between two instances. In particular, we adapt the "Predictive Bi-Clustering Tree" (PBCT) method to HMC tasks. Our experiments demonstrate that PBCT-HMC is competitive to the state-of-art competitor.
id SCAR_cba1f82732ba1bdb8f0417f9542c455d
oai_identifier_str oai:repositorio.ufscar.br:ufscar/15890
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Santos, Bruna ZamithCerri, Ricardohttp://lattes.cnpq.br/6266519868438512Vens, Celinehttp://lattes.cnpq.br/38050453337407403cb81c2e-10af-439f-b038-2aff7f2e71ad2022-04-21T12:17:38Z2022-04-21T12:17:38Z2020-06-26SANTOS, Bruna Zamith. Classificação hierárquica multirrótulo de funções de proteínas via predição de interações. 2020. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/15890.https://repositorio.ufscar.br/handle/ufscar/15890https://github.com/biomal/Clus-PBCT-HMCProteins are macro-molecules responsible for virtually every task necessary for the maintenance of cells, having a fundamental role in the behavior and regulation of organisms. Advances in the area of Molecular Biology have allowed an almost complete listing of the proteins that make up the organisms. However, there are a large number of proteins whose function is still unknown, opening space for a new research focus in Molecular Biology. Usually, protein function prediction is performed using homology-based Bioinformatic tools, comparing a sequence with a database with many sequences belonging to previously known functions. This is a limited strategy, since it ignores the sequences' biochemical properties, and also the hierarchical relationships that may exist between the different classes. In the literature, the use of Machine Learning for the protein function prediction has shown to be promising, obtaining significant advances regarding the use of homology and other methods. Making use of Machine Learning, it is possible to model the protein function prediction problem as a Hierarchical Multi-label Classification (HMC) problem, due to the fact that protein functions are hierarchically organized and that they can occur simultaneously. This project proposes modeling the protein function prediction task as a Hierarchical Multi-label Classification problem through interaction data. Interaction data are characterized by two sets of objects, each described by their own set of features, which makes it possible to predict the interactions between two instances. In particular, we adapt the "Predictive Bi-Clustering Tree" (PBCT) method to HMC tasks. Our experiments demonstrate that PBCT-HMC is competitive to the state-of-art competitor.Proteínas são macromoléculas responsáveis por praticamente todas as funções necessárias para a manutenção das células, tendo papel fundamental na regulação dos organismos. Avanços na área de Biologia Molecular permitiram uma listagem quase completa de todas as proteínas que compõem os organismos. Entretanto, existe um grande número de proteínas cujas funções ainda são desconhecidas, abrindo espaço para um novo foco de pesquisa em Biologia Molecular. Normalmente, a predição de funções de proteínas é feita usando-se ferramentas de Bioinformática baseadas em homologia, a qual consiste em comparar uma sequência com uma base de dados contendo várias sequências que pertencem a funções previamente conhecidas. Essa é uma estratégia limitada, uma vez que ignora as propriedades bioquímicas das sequências e as relações hierárquicas que podem existir entre as diferentes funções. Na literatura, o uso de Aprendizado de Máquina para predição de funções de proteínas tem se mostrado promissor, obtendo avanços significativos em relação ao uso de homologia e de outros métodos. Fazendo uso de Aprendizado de Máquina, é possível construir o problema de predição de funções de proteínas como um problema de Classificação Hierárquica Multirrótulo, devido ao fato de que funções de proteínas estão organizadas hierarquicamente e de que uma proteína pode exercer uma ou mais funções simultaneamente. Esse projeto propõe modelar o problema de predição de funções de proteínas como um problema de Classificação Hierárquica Multirrótulo, do inglês "Hierarchical Multi-label Classification" (HMC), através de dados interativos. Dados interativos são caracterizados por dois conjuntos de objetos, cada um descrito por seu próprio conjunto de atributos, o que permite a predição de interações entre duas instâncias. Em particular, adaptamos o método "Predictive Bi-Clustering Tree" (PBCT) para tarefas HMC. Nossos experimentos demonstraram que o PBCT-HMC é competitivo em relação ao concorrente estado-da-arte.Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)2016/25078-0porUniversidade Federal de São CarlosCâmpus São CarlosEngenharia de Computação - ECUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessAprendizado de máquinaAprendizado de máquina hierárquicoAprendizado de máquina multirrótuloPredição de funções de proteínasBioinformáticaAprendizado supervisionadoMachine learningHierarchical machine learningMulti-label machine learningProtein function predictionBioinformaticsSupervised learningCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOClassificação hierárquica multirrótulo de funções de proteínas via predição de interaçõesHierarchical multi-label classification of protein functions via interaction predictioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis600600c997f5ee-db84-40ed-8971-521dd105f2d1reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALTCC_Bruna_Zamith_Final.pdfTCC_Bruna_Zamith_Final.pdfTCC Finalapplication/pdf1471606https://repositorio.ufscar.br/bitstream/ufscar/15890/1/TCC_Bruna_Zamith_Final.pdf2121e4f2e70f64ffb177893900b700edMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstream/ufscar/15890/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52TEXTTCC_Bruna_Zamith_Final.pdf.txtTCC_Bruna_Zamith_Final.pdf.txtExtracted texttext/plain93229https://repositorio.ufscar.br/bitstream/ufscar/15890/3/TCC_Bruna_Zamith_Final.pdf.txt94d855267d001ed2902759c94b9fd419MD53THUMBNAILTCC_Bruna_Zamith_Final.pdf.jpgTCC_Bruna_Zamith_Final.pdf.jpgIM Thumbnailimage/jpeg5832https://repositorio.ufscar.br/bitstream/ufscar/15890/4/TCC_Bruna_Zamith_Final.pdf.jpgca7d9e223a4f7e3d74aefdf7a0fab89cMD54ufscar/158902023-09-18 18:32:18.678oai:repositorio.ufscar.br:ufscar/15890Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:32:18Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Classificação hierárquica multirrótulo de funções de proteínas via predição de interações
dc.title.alternative.eng.fl_str_mv Hierarchical multi-label classification of protein functions via interaction prediction
title Classificação hierárquica multirrótulo de funções de proteínas via predição de interações
spellingShingle Classificação hierárquica multirrótulo de funções de proteínas via predição de interações
Santos, Bruna Zamith
Aprendizado de máquina
Aprendizado de máquina hierárquico
Aprendizado de máquina multirrótulo
Predição de funções de proteínas
Bioinformática
Aprendizado supervisionado
Machine learning
Hierarchical machine learning
Multi-label machine learning
Protein function prediction
Bioinformatics
Supervised learning
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Classificação hierárquica multirrótulo de funções de proteínas via predição de interações
title_full Classificação hierárquica multirrótulo de funções de proteínas via predição de interações
title_fullStr Classificação hierárquica multirrótulo de funções de proteínas via predição de interações
title_full_unstemmed Classificação hierárquica multirrótulo de funções de proteínas via predição de interações
title_sort Classificação hierárquica multirrótulo de funções de proteínas via predição de interações
author Santos, Bruna Zamith
author_facet Santos, Bruna Zamith
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/3805045333740740
dc.contributor.author.fl_str_mv Santos, Bruna Zamith
dc.contributor.advisor1.fl_str_mv Cerri, Ricardo
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6266519868438512
dc.contributor.advisor-co1.fl_str_mv Vens, Celine
dc.contributor.authorID.fl_str_mv 3cb81c2e-10af-439f-b038-2aff7f2e71ad
contributor_str_mv Cerri, Ricardo
Vens, Celine
dc.subject.por.fl_str_mv Aprendizado de máquina
Aprendizado de máquina hierárquico
Aprendizado de máquina multirrótulo
Predição de funções de proteínas
Bioinformática
Aprendizado supervisionado
topic Aprendizado de máquina
Aprendizado de máquina hierárquico
Aprendizado de máquina multirrótulo
Predição de funções de proteínas
Bioinformática
Aprendizado supervisionado
Machine learning
Hierarchical machine learning
Multi-label machine learning
Protein function prediction
Bioinformatics
Supervised learning
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Machine learning
Hierarchical machine learning
Multi-label machine learning
Protein function prediction
Bioinformatics
Supervised learning
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Proteins are macro-molecules responsible for virtually every task necessary for the maintenance of cells, having a fundamental role in the behavior and regulation of organisms. Advances in the area of Molecular Biology have allowed an almost complete listing of the proteins that make up the organisms. However, there are a large number of proteins whose function is still unknown, opening space for a new research focus in Molecular Biology. Usually, protein function prediction is performed using homology-based Bioinformatic tools, comparing a sequence with a database with many sequences belonging to previously known functions. This is a limited strategy, since it ignores the sequences' biochemical properties, and also the hierarchical relationships that may exist between the different classes. In the literature, the use of Machine Learning for the protein function prediction has shown to be promising, obtaining significant advances regarding the use of homology and other methods. Making use of Machine Learning, it is possible to model the protein function prediction problem as a Hierarchical Multi-label Classification (HMC) problem, due to the fact that protein functions are hierarchically organized and that they can occur simultaneously. This project proposes modeling the protein function prediction task as a Hierarchical Multi-label Classification problem through interaction data. Interaction data are characterized by two sets of objects, each described by their own set of features, which makes it possible to predict the interactions between two instances. In particular, we adapt the "Predictive Bi-Clustering Tree" (PBCT) method to HMC tasks. Our experiments demonstrate that PBCT-HMC is competitive to the state-of-art competitor.
publishDate 2020
dc.date.issued.fl_str_mv 2020-06-26
dc.date.accessioned.fl_str_mv 2022-04-21T12:17:38Z
dc.date.available.fl_str_mv 2022-04-21T12:17:38Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SANTOS, Bruna Zamith. Classificação hierárquica multirrótulo de funções de proteínas via predição de interações. 2020. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/15890.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/15890
dc.identifier.url.por.fl_str_mv https://github.com/biomal/Clus-PBCT-HMC
identifier_str_mv SANTOS, Bruna Zamith. Classificação hierárquica multirrótulo de funções de proteínas via predição de interações. 2020. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/15890.
url https://repositorio.ufscar.br/handle/ufscar/15890
https://github.com/biomal/Clus-PBCT-HMC
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
600
dc.relation.authority.fl_str_mv c997f5ee-db84-40ed-8971-521dd105f2d1
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
Engenharia de Computação - EC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
Engenharia de Computação - EC
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/15890/1/TCC_Bruna_Zamith_Final.pdf
https://repositorio.ufscar.br/bitstream/ufscar/15890/2/license_rdf
https://repositorio.ufscar.br/bitstream/ufscar/15890/3/TCC_Bruna_Zamith_Final.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/15890/4/TCC_Bruna_Zamith_Final.pdf.jpg
bitstream.checksum.fl_str_mv 2121e4f2e70f64ffb177893900b700ed
e39d27027a6cc9cb039ad269a5db8e34
94d855267d001ed2902759c94b9fd419
ca7d9e223a4f7e3d74aefdf7a0fab89c
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1802136404736606208