Classificação hierárquica multirrótulo de funções de proteínas via predição de interações
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSCAR |
Texto Completo: | https://repositorio.ufscar.br/handle/ufscar/15890 https://github.com/biomal/Clus-PBCT-HMC |
Resumo: | Proteins are macro-molecules responsible for virtually every task necessary for the maintenance of cells, having a fundamental role in the behavior and regulation of organisms. Advances in the area of Molecular Biology have allowed an almost complete listing of the proteins that make up the organisms. However, there are a large number of proteins whose function is still unknown, opening space for a new research focus in Molecular Biology. Usually, protein function prediction is performed using homology-based Bioinformatic tools, comparing a sequence with a database with many sequences belonging to previously known functions. This is a limited strategy, since it ignores the sequences' biochemical properties, and also the hierarchical relationships that may exist between the different classes. In the literature, the use of Machine Learning for the protein function prediction has shown to be promising, obtaining significant advances regarding the use of homology and other methods. Making use of Machine Learning, it is possible to model the protein function prediction problem as a Hierarchical Multi-label Classification (HMC) problem, due to the fact that protein functions are hierarchically organized and that they can occur simultaneously. This project proposes modeling the protein function prediction task as a Hierarchical Multi-label Classification problem through interaction data. Interaction data are characterized by two sets of objects, each described by their own set of features, which makes it possible to predict the interactions between two instances. In particular, we adapt the "Predictive Bi-Clustering Tree" (PBCT) method to HMC tasks. Our experiments demonstrate that PBCT-HMC is competitive to the state-of-art competitor. |
id |
SCAR_cba1f82732ba1bdb8f0417f9542c455d |
---|---|
oai_identifier_str |
oai:repositorio.ufscar.br:ufscar/15890 |
network_acronym_str |
SCAR |
network_name_str |
Repositório Institucional da UFSCAR |
repository_id_str |
4322 |
spelling |
Santos, Bruna ZamithCerri, Ricardohttp://lattes.cnpq.br/6266519868438512Vens, Celinehttp://lattes.cnpq.br/38050453337407403cb81c2e-10af-439f-b038-2aff7f2e71ad2022-04-21T12:17:38Z2022-04-21T12:17:38Z2020-06-26SANTOS, Bruna Zamith. Classificação hierárquica multirrótulo de funções de proteínas via predição de interações. 2020. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/15890.https://repositorio.ufscar.br/handle/ufscar/15890https://github.com/biomal/Clus-PBCT-HMCProteins are macro-molecules responsible for virtually every task necessary for the maintenance of cells, having a fundamental role in the behavior and regulation of organisms. Advances in the area of Molecular Biology have allowed an almost complete listing of the proteins that make up the organisms. However, there are a large number of proteins whose function is still unknown, opening space for a new research focus in Molecular Biology. Usually, protein function prediction is performed using homology-based Bioinformatic tools, comparing a sequence with a database with many sequences belonging to previously known functions. This is a limited strategy, since it ignores the sequences' biochemical properties, and also the hierarchical relationships that may exist between the different classes. In the literature, the use of Machine Learning for the protein function prediction has shown to be promising, obtaining significant advances regarding the use of homology and other methods. Making use of Machine Learning, it is possible to model the protein function prediction problem as a Hierarchical Multi-label Classification (HMC) problem, due to the fact that protein functions are hierarchically organized and that they can occur simultaneously. This project proposes modeling the protein function prediction task as a Hierarchical Multi-label Classification problem through interaction data. Interaction data are characterized by two sets of objects, each described by their own set of features, which makes it possible to predict the interactions between two instances. In particular, we adapt the "Predictive Bi-Clustering Tree" (PBCT) method to HMC tasks. Our experiments demonstrate that PBCT-HMC is competitive to the state-of-art competitor.Proteínas são macromoléculas responsáveis por praticamente todas as funções necessárias para a manutenção das células, tendo papel fundamental na regulação dos organismos. Avanços na área de Biologia Molecular permitiram uma listagem quase completa de todas as proteínas que compõem os organismos. Entretanto, existe um grande número de proteínas cujas funções ainda são desconhecidas, abrindo espaço para um novo foco de pesquisa em Biologia Molecular. Normalmente, a predição de funções de proteínas é feita usando-se ferramentas de Bioinformática baseadas em homologia, a qual consiste em comparar uma sequência com uma base de dados contendo várias sequências que pertencem a funções previamente conhecidas. Essa é uma estratégia limitada, uma vez que ignora as propriedades bioquímicas das sequências e as relações hierárquicas que podem existir entre as diferentes funções. Na literatura, o uso de Aprendizado de Máquina para predição de funções de proteínas tem se mostrado promissor, obtendo avanços significativos em relação ao uso de homologia e de outros métodos. Fazendo uso de Aprendizado de Máquina, é possível construir o problema de predição de funções de proteínas como um problema de Classificação Hierárquica Multirrótulo, devido ao fato de que funções de proteínas estão organizadas hierarquicamente e de que uma proteína pode exercer uma ou mais funções simultaneamente. Esse projeto propõe modelar o problema de predição de funções de proteínas como um problema de Classificação Hierárquica Multirrótulo, do inglês "Hierarchical Multi-label Classification" (HMC), através de dados interativos. Dados interativos são caracterizados por dois conjuntos de objetos, cada um descrito por seu próprio conjunto de atributos, o que permite a predição de interações entre duas instâncias. Em particular, adaptamos o método "Predictive Bi-Clustering Tree" (PBCT) para tarefas HMC. Nossos experimentos demonstraram que o PBCT-HMC é competitivo em relação ao concorrente estado-da-arte.Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)2016/25078-0porUniversidade Federal de São CarlosCâmpus São CarlosEngenharia de Computação - ECUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessAprendizado de máquinaAprendizado de máquina hierárquicoAprendizado de máquina multirrótuloPredição de funções de proteínasBioinformáticaAprendizado supervisionadoMachine learningHierarchical machine learningMulti-label machine learningProtein function predictionBioinformaticsSupervised learningCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOClassificação hierárquica multirrótulo de funções de proteínas via predição de interaçõesHierarchical multi-label classification of protein functions via interaction predictioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis600600c997f5ee-db84-40ed-8971-521dd105f2d1reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALTCC_Bruna_Zamith_Final.pdfTCC_Bruna_Zamith_Final.pdfTCC Finalapplication/pdf1471606https://repositorio.ufscar.br/bitstream/ufscar/15890/1/TCC_Bruna_Zamith_Final.pdf2121e4f2e70f64ffb177893900b700edMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstream/ufscar/15890/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52TEXTTCC_Bruna_Zamith_Final.pdf.txtTCC_Bruna_Zamith_Final.pdf.txtExtracted texttext/plain93229https://repositorio.ufscar.br/bitstream/ufscar/15890/3/TCC_Bruna_Zamith_Final.pdf.txt94d855267d001ed2902759c94b9fd419MD53THUMBNAILTCC_Bruna_Zamith_Final.pdf.jpgTCC_Bruna_Zamith_Final.pdf.jpgIM Thumbnailimage/jpeg5832https://repositorio.ufscar.br/bitstream/ufscar/15890/4/TCC_Bruna_Zamith_Final.pdf.jpgca7d9e223a4f7e3d74aefdf7a0fab89cMD54ufscar/158902023-09-18 18:32:18.678oai:repositorio.ufscar.br:ufscar/15890Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:32:18Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
dc.title.por.fl_str_mv |
Classificação hierárquica multirrótulo de funções de proteínas via predição de interações |
dc.title.alternative.eng.fl_str_mv |
Hierarchical multi-label classification of protein functions via interaction prediction |
title |
Classificação hierárquica multirrótulo de funções de proteínas via predição de interações |
spellingShingle |
Classificação hierárquica multirrótulo de funções de proteínas via predição de interações Santos, Bruna Zamith Aprendizado de máquina Aprendizado de máquina hierárquico Aprendizado de máquina multirrótulo Predição de funções de proteínas Bioinformática Aprendizado supervisionado Machine learning Hierarchical machine learning Multi-label machine learning Protein function prediction Bioinformatics Supervised learning CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
title_short |
Classificação hierárquica multirrótulo de funções de proteínas via predição de interações |
title_full |
Classificação hierárquica multirrótulo de funções de proteínas via predição de interações |
title_fullStr |
Classificação hierárquica multirrótulo de funções de proteínas via predição de interações |
title_full_unstemmed |
Classificação hierárquica multirrótulo de funções de proteínas via predição de interações |
title_sort |
Classificação hierárquica multirrótulo de funções de proteínas via predição de interações |
author |
Santos, Bruna Zamith |
author_facet |
Santos, Bruna Zamith |
author_role |
author |
dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/3805045333740740 |
dc.contributor.author.fl_str_mv |
Santos, Bruna Zamith |
dc.contributor.advisor1.fl_str_mv |
Cerri, Ricardo |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/6266519868438512 |
dc.contributor.advisor-co1.fl_str_mv |
Vens, Celine |
dc.contributor.authorID.fl_str_mv |
3cb81c2e-10af-439f-b038-2aff7f2e71ad |
contributor_str_mv |
Cerri, Ricardo Vens, Celine |
dc.subject.por.fl_str_mv |
Aprendizado de máquina Aprendizado de máquina hierárquico Aprendizado de máquina multirrótulo Predição de funções de proteínas Bioinformática Aprendizado supervisionado |
topic |
Aprendizado de máquina Aprendizado de máquina hierárquico Aprendizado de máquina multirrótulo Predição de funções de proteínas Bioinformática Aprendizado supervisionado Machine learning Hierarchical machine learning Multi-label machine learning Protein function prediction Bioinformatics Supervised learning CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
dc.subject.eng.fl_str_mv |
Machine learning Hierarchical machine learning Multi-label machine learning Protein function prediction Bioinformatics Supervised learning |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
description |
Proteins are macro-molecules responsible for virtually every task necessary for the maintenance of cells, having a fundamental role in the behavior and regulation of organisms. Advances in the area of Molecular Biology have allowed an almost complete listing of the proteins that make up the organisms. However, there are a large number of proteins whose function is still unknown, opening space for a new research focus in Molecular Biology. Usually, protein function prediction is performed using homology-based Bioinformatic tools, comparing a sequence with a database with many sequences belonging to previously known functions. This is a limited strategy, since it ignores the sequences' biochemical properties, and also the hierarchical relationships that may exist between the different classes. In the literature, the use of Machine Learning for the protein function prediction has shown to be promising, obtaining significant advances regarding the use of homology and other methods. Making use of Machine Learning, it is possible to model the protein function prediction problem as a Hierarchical Multi-label Classification (HMC) problem, due to the fact that protein functions are hierarchically organized and that they can occur simultaneously. This project proposes modeling the protein function prediction task as a Hierarchical Multi-label Classification problem through interaction data. Interaction data are characterized by two sets of objects, each described by their own set of features, which makes it possible to predict the interactions between two instances. In particular, we adapt the "Predictive Bi-Clustering Tree" (PBCT) method to HMC tasks. Our experiments demonstrate that PBCT-HMC is competitive to the state-of-art competitor. |
publishDate |
2020 |
dc.date.issued.fl_str_mv |
2020-06-26 |
dc.date.accessioned.fl_str_mv |
2022-04-21T12:17:38Z |
dc.date.available.fl_str_mv |
2022-04-21T12:17:38Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
SANTOS, Bruna Zamith. Classificação hierárquica multirrótulo de funções de proteínas via predição de interações. 2020. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/15890. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/ufscar/15890 |
dc.identifier.url.por.fl_str_mv |
https://github.com/biomal/Clus-PBCT-HMC |
identifier_str_mv |
SANTOS, Bruna Zamith. Classificação hierárquica multirrótulo de funções de proteínas via predição de interações. 2020. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/15890. |
url |
https://repositorio.ufscar.br/handle/ufscar/15890 https://github.com/biomal/Clus-PBCT-HMC |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.confidence.fl_str_mv |
600 600 |
dc.relation.authority.fl_str_mv |
c997f5ee-db84-40ed-8971-521dd105f2d1 |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos Engenharia de Computação - EC |
dc.publisher.initials.fl_str_mv |
UFSCar |
publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos Engenharia de Computação - EC |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
instname_str |
Universidade Federal de São Carlos (UFSCAR) |
instacron_str |
UFSCAR |
institution |
UFSCAR |
reponame_str |
Repositório Institucional da UFSCAR |
collection |
Repositório Institucional da UFSCAR |
bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstream/ufscar/15890/1/TCC_Bruna_Zamith_Final.pdf https://repositorio.ufscar.br/bitstream/ufscar/15890/2/license_rdf https://repositorio.ufscar.br/bitstream/ufscar/15890/3/TCC_Bruna_Zamith_Final.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/15890/4/TCC_Bruna_Zamith_Final.pdf.jpg |
bitstream.checksum.fl_str_mv |
2121e4f2e70f64ffb177893900b700ed e39d27027a6cc9cb039ad269a5db8e34 94d855267d001ed2902759c94b9fd419 ca7d9e223a4f7e3d74aefdf7a0fab89c |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
repository.mail.fl_str_mv |
|
_version_ |
1802136404736606208 |