IDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da PUC-RIO (Projeto Maxwell) |
Texto Completo: | https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48222@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48222@2 |
Resumo: | As proteínas são macromoléculas biológicas compostas por cadeias de aminoácidos, presentes em praticamente todos os processos celulares, sendo essenciais para o correto funcionamento do organismo humano. Existem diversos estudos em torno do proteoma humano a fim de se identificar quais são as funções de cada proteína nas diferentes células, tecidos e órgãos do corpo humano. A classificação destas proteínas em diferentes formas, como por exemplo a localização subcelular, é importante para diversas aplicações da biomedicina. Com o avanço das tecnologias para obtenção de imagens das proteínas, tem-se que hoje estas são geradas em grande volume e mais rapidamente do que é possível classificá-las manualmente, o que torna importante o desenvolvimento de um classificador automático capaz de realizar esta classificação de maneira eficaz. Dessa forma, esta dissertação buscou desenvolver algoritmos capazes de realizar a classificação automática de padrões mistos de localização subcelular de proteínas, por meio do uso de técnicas de Deep Learning. Inicialmente, fez-se uma revisão da literatura em torno de redes neurais, Deep Learning e SVMs, e utilizou-se o banco de dados, publicamente disponíve, de imagens de células do Human Protein Atlas, para treinamento dos algoritmos de aprendizagem supervisionada. Diversos modelos foram desenvolvidos e avaliados, visando identificar aquele com melhor desempenho na tarefa de classificação. Ao longo do trabalho foram desenvolvidas redes neurais artificiais convolucionais de topologia LeNet, ResNet e um modelo híbrido ResNet-SVM, tendo sido treinadas ao todo 81 redes neurais diferentes, a fim de se identificar o melhor conjunto de hiper-parâmetros. As análises efetuadas permitiram concluir que a rede de melhor desempenho foi uma variante da topologia ResNet, que obteve em suas métricas de desempenho uma acurácia de 0,94 e uma pontuação F1 de 0,44 ao se avaliar o comportamento da rede frente ao conjunto de teste. Os resultados obtidos pela diferentes topologias analisadas foram detalhadamente avaliados e, com base nos resultados alcançados, foram sugeridos trabalhos futuros baseados em possíveis melhorias para as redes de melhor desempenho. |
id |
PUC_RIO-1_7bbc400b72885a0f7e91a604d299d39f |
---|---|
oai_identifier_str |
oai:MAXWELL.puc-rio.br:48222 |
network_acronym_str |
PUC_RIO-1 |
network_name_str |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
repository_id_str |
534 |
spelling |
info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisIDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES IDENTIFICAÇÃO DA LOCALIZAÇÃO SUBCELULAR DE PROTEÍNAS POR MEIO DE TÉCNICAS DE DEEP LEARNING 2019-07-16EDUARDO COSTA DA SILVA10157357708lattes.cnpq.br/3248166666175748EDUARDO COSTA DA SILVA10157357708lattes.cnpq.br/3248166666175748EDUARDO COSTA DA SILVALEONARDO ALFREDO FORERO MENDOZALEONARDO ALFREDO FORERO MENDOZAELISABETH COSTA MONTEIROCARLOS ROBERTO HALL BARBOSAROBERTO BANDEIRA DE MELLO MORAIS DA SILVAPONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIROPPG EM ENGENHARIA ELÉTRICAPUC-RioBRAs proteínas são macromoléculas biológicas compostas por cadeias de aminoácidos, presentes em praticamente todos os processos celulares, sendo essenciais para o correto funcionamento do organismo humano. Existem diversos estudos em torno do proteoma humano a fim de se identificar quais são as funções de cada proteína nas diferentes células, tecidos e órgãos do corpo humano. A classificação destas proteínas em diferentes formas, como por exemplo a localização subcelular, é importante para diversas aplicações da biomedicina. Com o avanço das tecnologias para obtenção de imagens das proteínas, tem-se que hoje estas são geradas em grande volume e mais rapidamente do que é possível classificá-las manualmente, o que torna importante o desenvolvimento de um classificador automático capaz de realizar esta classificação de maneira eficaz. Dessa forma, esta dissertação buscou desenvolver algoritmos capazes de realizar a classificação automática de padrões mistos de localização subcelular de proteínas, por meio do uso de técnicas de Deep Learning. Inicialmente, fez-se uma revisão da literatura em torno de redes neurais, Deep Learning e SVMs, e utilizou-se o banco de dados, publicamente disponíve, de imagens de células do Human Protein Atlas, para treinamento dos algoritmos de aprendizagem supervisionada. Diversos modelos foram desenvolvidos e avaliados, visando identificar aquele com melhor desempenho na tarefa de classificação. Ao longo do trabalho foram desenvolvidas redes neurais artificiais convolucionais de topologia LeNet, ResNet e um modelo híbrido ResNet-SVM, tendo sido treinadas ao todo 81 redes neurais diferentes, a fim de se identificar o melhor conjunto de hiper-parâmetros. As análises efetuadas permitiram concluir que a rede de melhor desempenho foi uma variante da topologia ResNet, que obteve em suas métricas de desempenho uma acurácia de 0,94 e uma pontuação F1 de 0,44 ao se avaliar o comportamento da rede frente ao conjunto de teste. Os resultados obtidos pela diferentes topologias analisadas foram detalhadamente avaliados e, com base nos resultados alcançados, foram sugeridos trabalhos futuros baseados em possíveis melhorias para as redes de melhor desempenho.Proteins are biological macromolecules composed of aminoacid chains, part of practically all cellular processes, being essential for the correct functioning of the human organism. There are many studies around the human protein aiming to identify the proteins’ functions in different cells, tissues and organs in the human body. The protein classification in many forms, such as the subcellular localization, is important for many biomedical applications. With the advance of protein image obtention technology, today these images are generated in large scale and faster than it is possible to manually classify them, which makes crucial the development of a system capable of classifying these images automatically and accurately. In that matter, this dissertation aimed to develop algorithms capable of automatically classifying proteins in mixed patterns of subcellular localization with the use of Deep Learning techniques. Initially, a literature review on neural networks, Deep Learning and SVMs, and a publicly available image database from the Human Protein Atlas was used to train the supervised learning algorithms. Many models were developed seeking the best performance in the classification task. Throughout this work, convolutional artificial neural networks of topologies LeNet, ResNet and a hybrid ResNet-SVM model were developed, with a total of 81 different neural networks trained, aiming to identify the best hyper-parameters. The analysis allowed the conclusion that the network with best performance was a ResNet variation, which obtained in its performance metrics an accuracy of 0.94 and an F1 score of 0.44 when evaluated against the test data. The obtained results of these topologies were detailedly evaluated and, based on the measured results, future studies were suggested based on possible improvements for the neural networks that had the best performances.PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIROCOORDENAÇÃO DE APERFEIÇOAMENTO DO PESSOAL DE ENSINO SUPERIORPROGRAMA DE EXCELENCIA ACADEMICAhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48222@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48222@2porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2022-11-01T13:53:28Zoai:MAXWELL.puc-rio.br:48222Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342022-08-02T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false |
dc.title.en.fl_str_mv |
IDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES |
dc.title.alternative.pt.fl_str_mv |
IDENTIFICAÇÃO DA LOCALIZAÇÃO SUBCELULAR DE PROTEÍNAS POR MEIO DE TÉCNICAS DE DEEP LEARNING |
title |
IDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES |
spellingShingle |
IDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES ROBERTO BANDEIRA DE MELLO MORAIS DA SILVA |
title_short |
IDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES |
title_full |
IDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES |
title_fullStr |
IDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES |
title_full_unstemmed |
IDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES |
title_sort |
IDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES |
dc.creator.ID.none.fl_str_mv |
|
dc.creator.Lattes.none.fl_str_mv |
|
author |
ROBERTO BANDEIRA DE MELLO MORAIS DA SILVA |
author_facet |
ROBERTO BANDEIRA DE MELLO MORAIS DA SILVA |
author_role |
author |
dc.contributor.advisor2ID.none.fl_str_mv |
10157357708 |
dc.contributor.advisor1.fl_str_mv |
EDUARDO COSTA DA SILVA |
dc.contributor.advisor1ID.fl_str_mv |
10157357708 |
dc.contributor.advisor1Lattes.fl_str_mv |
lattes.cnpq.br/3248166666175748 |
dc.contributor.advisor2.fl_str_mv |
EDUARDO COSTA DA SILVA |
dc.contributor.advisor2Lattes.fl_str_mv |
lattes.cnpq.br/3248166666175748 |
dc.contributor.referee1.fl_str_mv |
EDUARDO COSTA DA SILVA |
dc.contributor.referee2.fl_str_mv |
LEONARDO ALFREDO FORERO MENDOZA |
dc.contributor.referee3.fl_str_mv |
LEONARDO ALFREDO FORERO MENDOZA |
dc.contributor.referee4.fl_str_mv |
ELISABETH COSTA MONTEIRO |
dc.contributor.referee5.fl_str_mv |
CARLOS ROBERTO HALL BARBOSA |
dc.contributor.author.fl_str_mv |
ROBERTO BANDEIRA DE MELLO MORAIS DA SILVA |
contributor_str_mv |
EDUARDO COSTA DA SILVA EDUARDO COSTA DA SILVA EDUARDO COSTA DA SILVA LEONARDO ALFREDO FORERO MENDOZA LEONARDO ALFREDO FORERO MENDOZA ELISABETH COSTA MONTEIRO CARLOS ROBERTO HALL BARBOSA |
description |
As proteínas são macromoléculas biológicas compostas por cadeias de aminoácidos, presentes em praticamente todos os processos celulares, sendo essenciais para o correto funcionamento do organismo humano. Existem diversos estudos em torno do proteoma humano a fim de se identificar quais são as funções de cada proteína nas diferentes células, tecidos e órgãos do corpo humano. A classificação destas proteínas em diferentes formas, como por exemplo a localização subcelular, é importante para diversas aplicações da biomedicina. Com o avanço das tecnologias para obtenção de imagens das proteínas, tem-se que hoje estas são geradas em grande volume e mais rapidamente do que é possível classificá-las manualmente, o que torna importante o desenvolvimento de um classificador automático capaz de realizar esta classificação de maneira eficaz. Dessa forma, esta dissertação buscou desenvolver algoritmos capazes de realizar a classificação automática de padrões mistos de localização subcelular de proteínas, por meio do uso de técnicas de Deep Learning. Inicialmente, fez-se uma revisão da literatura em torno de redes neurais, Deep Learning e SVMs, e utilizou-se o banco de dados, publicamente disponíve, de imagens de células do Human Protein Atlas, para treinamento dos algoritmos de aprendizagem supervisionada. Diversos modelos foram desenvolvidos e avaliados, visando identificar aquele com melhor desempenho na tarefa de classificação. Ao longo do trabalho foram desenvolvidas redes neurais artificiais convolucionais de topologia LeNet, ResNet e um modelo híbrido ResNet-SVM, tendo sido treinadas ao todo 81 redes neurais diferentes, a fim de se identificar o melhor conjunto de hiper-parâmetros. As análises efetuadas permitiram concluir que a rede de melhor desempenho foi uma variante da topologia ResNet, que obteve em suas métricas de desempenho uma acurácia de 0,94 e uma pontuação F1 de 0,44 ao se avaliar o comportamento da rede frente ao conjunto de teste. Os resultados obtidos pela diferentes topologias analisadas foram detalhadamente avaliados e, com base nos resultados alcançados, foram sugeridos trabalhos futuros baseados em possíveis melhorias para as redes de melhor desempenho. |
publishDate |
2019 |
dc.date.issued.fl_str_mv |
2019-07-16 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48222@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48222@2 |
url |
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48222@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48222@2 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO |
dc.publisher.program.fl_str_mv |
PPG EM ENGENHARIA ELÉTRICA |
dc.publisher.initials.fl_str_mv |
PUC-Rio |
dc.publisher.country.fl_str_mv |
BR |
publisher.none.fl_str_mv |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell) instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) instacron:PUC_RIO |
instname_str |
Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) |
instacron_str |
PUC_RIO |
institution |
PUC_RIO |
reponame_str |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
collection |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
repository.name.fl_str_mv |
Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) |
repository.mail.fl_str_mv |
|
_version_ |
1748324949565636608 |