IDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES

Detalhes bibliográficos
Autor(a) principal: ROBERTO BANDEIRA DE MELLO MORAIS DA SILVA
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da PUC-RIO (Projeto Maxwell)
Texto Completo: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48222@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48222@2
Resumo: As proteínas são macromoléculas biológicas compostas por cadeias de aminoácidos, presentes em praticamente todos os processos celulares, sendo essenciais para o correto funcionamento do organismo humano. Existem diversos estudos em torno do proteoma humano a fim de se identificar quais são as funções de cada proteína nas diferentes células, tecidos e órgãos do corpo humano. A classificação destas proteínas em diferentes formas, como por exemplo a localização subcelular, é importante para diversas aplicações da biomedicina. Com o avanço das tecnologias para obtenção de imagens das proteínas, tem-se que hoje estas são geradas em grande volume e mais rapidamente do que é possível classificá-las manualmente, o que torna importante o desenvolvimento de um classificador automático capaz de realizar esta classificação de maneira eficaz. Dessa forma, esta dissertação buscou desenvolver algoritmos capazes de realizar a classificação automática de padrões mistos de localização subcelular de proteínas, por meio do uso de técnicas de Deep Learning. Inicialmente, fez-se uma revisão da literatura em torno de redes neurais, Deep Learning e SVMs, e utilizou-se o banco de dados, publicamente disponíve, de imagens de células do Human Protein Atlas, para treinamento dos algoritmos de aprendizagem supervisionada. Diversos modelos foram desenvolvidos e avaliados, visando identificar aquele com melhor desempenho na tarefa de classificação. Ao longo do trabalho foram desenvolvidas redes neurais artificiais convolucionais de topologia LeNet, ResNet e um modelo híbrido ResNet-SVM, tendo sido treinadas ao todo 81 redes neurais diferentes, a fim de se identificar o melhor conjunto de hiper-parâmetros. As análises efetuadas permitiram concluir que a rede de melhor desempenho foi uma variante da topologia ResNet, que obteve em suas métricas de desempenho uma acurácia de 0,94 e uma pontuação F1 de 0,44 ao se avaliar o comportamento da rede frente ao conjunto de teste. Os resultados obtidos pela diferentes topologias analisadas foram detalhadamente avaliados e, com base nos resultados alcançados, foram sugeridos trabalhos futuros baseados em possíveis melhorias para as redes de melhor desempenho.
id PUC_RIO-1_7bbc400b72885a0f7e91a604d299d39f
oai_identifier_str oai:MAXWELL.puc-rio.br:48222
network_acronym_str PUC_RIO-1
network_name_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str 534
spelling info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisIDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES IDENTIFICAÇÃO DA LOCALIZAÇÃO SUBCELULAR DE PROTEÍNAS POR MEIO DE TÉCNICAS DE DEEP LEARNING 2019-07-16EDUARDO COSTA DA SILVA10157357708lattes.cnpq.br/3248166666175748EDUARDO COSTA DA SILVA10157357708lattes.cnpq.br/3248166666175748EDUARDO COSTA DA SILVALEONARDO ALFREDO FORERO MENDOZALEONARDO ALFREDO FORERO MENDOZAELISABETH COSTA MONTEIROCARLOS ROBERTO HALL BARBOSAROBERTO BANDEIRA DE MELLO MORAIS DA SILVAPONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIROPPG EM ENGENHARIA ELÉTRICAPUC-RioBRAs proteínas são macromoléculas biológicas compostas por cadeias de aminoácidos, presentes em praticamente todos os processos celulares, sendo essenciais para o correto funcionamento do organismo humano. Existem diversos estudos em torno do proteoma humano a fim de se identificar quais são as funções de cada proteína nas diferentes células, tecidos e órgãos do corpo humano. A classificação destas proteínas em diferentes formas, como por exemplo a localização subcelular, é importante para diversas aplicações da biomedicina. Com o avanço das tecnologias para obtenção de imagens das proteínas, tem-se que hoje estas são geradas em grande volume e mais rapidamente do que é possível classificá-las manualmente, o que torna importante o desenvolvimento de um classificador automático capaz de realizar esta classificação de maneira eficaz. Dessa forma, esta dissertação buscou desenvolver algoritmos capazes de realizar a classificação automática de padrões mistos de localização subcelular de proteínas, por meio do uso de técnicas de Deep Learning. Inicialmente, fez-se uma revisão da literatura em torno de redes neurais, Deep Learning e SVMs, e utilizou-se o banco de dados, publicamente disponíve, de imagens de células do Human Protein Atlas, para treinamento dos algoritmos de aprendizagem supervisionada. Diversos modelos foram desenvolvidos e avaliados, visando identificar aquele com melhor desempenho na tarefa de classificação. Ao longo do trabalho foram desenvolvidas redes neurais artificiais convolucionais de topologia LeNet, ResNet e um modelo híbrido ResNet-SVM, tendo sido treinadas ao todo 81 redes neurais diferentes, a fim de se identificar o melhor conjunto de hiper-parâmetros. As análises efetuadas permitiram concluir que a rede de melhor desempenho foi uma variante da topologia ResNet, que obteve em suas métricas de desempenho uma acurácia de 0,94 e uma pontuação F1 de 0,44 ao se avaliar o comportamento da rede frente ao conjunto de teste. Os resultados obtidos pela diferentes topologias analisadas foram detalhadamente avaliados e, com base nos resultados alcançados, foram sugeridos trabalhos futuros baseados em possíveis melhorias para as redes de melhor desempenho.Proteins are biological macromolecules composed of aminoacid chains, part of practically all cellular processes, being essential for the correct functioning of the human organism. There are many studies around the human protein aiming to identify the proteins’ functions in different cells, tissues and organs in the human body. The protein classification in many forms, such as the subcellular localization, is important for many biomedical applications. With the advance of protein image obtention technology, today these images are generated in large scale and faster than it is possible to manually classify them, which makes crucial the development of a system capable of classifying these images automatically and accurately. In that matter, this dissertation aimed to develop algorithms capable of automatically classifying proteins in mixed patterns of subcellular localization with the use of Deep Learning techniques. Initially, a literature review on neural networks, Deep Learning and SVMs, and a publicly available image database from the Human Protein Atlas was used to train the supervised learning algorithms. Many models were developed seeking the best performance in the classification task. Throughout this work, convolutional artificial neural networks of topologies LeNet, ResNet and a hybrid ResNet-SVM model were developed, with a total of 81 different neural networks trained, aiming to identify the best hyper-parameters. The analysis allowed the conclusion that the network with best performance was a ResNet variation, which obtained in its performance metrics an accuracy of 0.94 and an F1 score of 0.44 when evaluated against the test data. The obtained results of these topologies were detailedly evaluated and, based on the measured results, future studies were suggested based on possible improvements for the neural networks that had the best performances.PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIROCOORDENAÇÃO DE APERFEIÇOAMENTO DO PESSOAL DE ENSINO SUPERIORPROGRAMA DE EXCELENCIA ACADEMICAhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48222@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48222@2porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2022-11-01T13:53:28Zoai:MAXWELL.puc-rio.br:48222Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342022-08-02T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.en.fl_str_mv IDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES
dc.title.alternative.pt.fl_str_mv IDENTIFICAÇÃO DA LOCALIZAÇÃO SUBCELULAR DE PROTEÍNAS POR MEIO DE TÉCNICAS DE DEEP LEARNING
title IDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES
spellingShingle IDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES
ROBERTO BANDEIRA DE MELLO MORAIS DA SILVA
title_short IDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES
title_full IDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES
title_fullStr IDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES
title_full_unstemmed IDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES
title_sort IDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES
dc.creator.ID.none.fl_str_mv
dc.creator.Lattes.none.fl_str_mv
author ROBERTO BANDEIRA DE MELLO MORAIS DA SILVA
author_facet ROBERTO BANDEIRA DE MELLO MORAIS DA SILVA
author_role author
dc.contributor.advisor2ID.none.fl_str_mv 10157357708
dc.contributor.advisor1.fl_str_mv EDUARDO COSTA DA SILVA
dc.contributor.advisor1ID.fl_str_mv 10157357708
dc.contributor.advisor1Lattes.fl_str_mv lattes.cnpq.br/3248166666175748
dc.contributor.advisor2.fl_str_mv EDUARDO COSTA DA SILVA
dc.contributor.advisor2Lattes.fl_str_mv lattes.cnpq.br/3248166666175748
dc.contributor.referee1.fl_str_mv EDUARDO COSTA DA SILVA
dc.contributor.referee2.fl_str_mv LEONARDO ALFREDO FORERO MENDOZA
dc.contributor.referee3.fl_str_mv LEONARDO ALFREDO FORERO MENDOZA
dc.contributor.referee4.fl_str_mv ELISABETH COSTA MONTEIRO
dc.contributor.referee5.fl_str_mv CARLOS ROBERTO HALL BARBOSA
dc.contributor.author.fl_str_mv ROBERTO BANDEIRA DE MELLO MORAIS DA SILVA
contributor_str_mv EDUARDO COSTA DA SILVA
EDUARDO COSTA DA SILVA
EDUARDO COSTA DA SILVA
LEONARDO ALFREDO FORERO MENDOZA
LEONARDO ALFREDO FORERO MENDOZA
ELISABETH COSTA MONTEIRO
CARLOS ROBERTO HALL BARBOSA
description As proteínas são macromoléculas biológicas compostas por cadeias de aminoácidos, presentes em praticamente todos os processos celulares, sendo essenciais para o correto funcionamento do organismo humano. Existem diversos estudos em torno do proteoma humano a fim de se identificar quais são as funções de cada proteína nas diferentes células, tecidos e órgãos do corpo humano. A classificação destas proteínas em diferentes formas, como por exemplo a localização subcelular, é importante para diversas aplicações da biomedicina. Com o avanço das tecnologias para obtenção de imagens das proteínas, tem-se que hoje estas são geradas em grande volume e mais rapidamente do que é possível classificá-las manualmente, o que torna importante o desenvolvimento de um classificador automático capaz de realizar esta classificação de maneira eficaz. Dessa forma, esta dissertação buscou desenvolver algoritmos capazes de realizar a classificação automática de padrões mistos de localização subcelular de proteínas, por meio do uso de técnicas de Deep Learning. Inicialmente, fez-se uma revisão da literatura em torno de redes neurais, Deep Learning e SVMs, e utilizou-se o banco de dados, publicamente disponíve, de imagens de células do Human Protein Atlas, para treinamento dos algoritmos de aprendizagem supervisionada. Diversos modelos foram desenvolvidos e avaliados, visando identificar aquele com melhor desempenho na tarefa de classificação. Ao longo do trabalho foram desenvolvidas redes neurais artificiais convolucionais de topologia LeNet, ResNet e um modelo híbrido ResNet-SVM, tendo sido treinadas ao todo 81 redes neurais diferentes, a fim de se identificar o melhor conjunto de hiper-parâmetros. As análises efetuadas permitiram concluir que a rede de melhor desempenho foi uma variante da topologia ResNet, que obteve em suas métricas de desempenho uma acurácia de 0,94 e uma pontuação F1 de 0,44 ao se avaliar o comportamento da rede frente ao conjunto de teste. Os resultados obtidos pela diferentes topologias analisadas foram detalhadamente avaliados e, com base nos resultados alcançados, foram sugeridos trabalhos futuros baseados em possíveis melhorias para as redes de melhor desempenho.
publishDate 2019
dc.date.issued.fl_str_mv 2019-07-16
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48222@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48222@2
url https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48222@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48222@2
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
dc.publisher.program.fl_str_mv PPG EM ENGENHARIA ELÉTRICA
dc.publisher.initials.fl_str_mv PUC-Rio
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
dc.source.none.fl_str_mv reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)
instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron:PUC_RIO
instname_str Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str PUC_RIO
institution PUC_RIO
reponame_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_ 1748324949565636608