Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais

Detalhes bibliográficos
Autor(a) principal: Tomachewski, Douglas
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UEPG
Texto Completo: http://tede2.uepg.br/jspui/handle/prefix/2408
Resumo: A identificação de microrganismos, nas áreas da saúde e agricultura, é essencial para compreender a composição e o desenvolvimento do meio. Novas técnicas estão buscando identificar estes microrganismos com mais acurácia, rapidez e com menor custo. Uma técnica cada vez mais estudada e utilizada atualmente é a identificação de microrganismos através de espectros de massa, gerados por uma espectrometria de massa. Os espectros de massa são capazes de gerar um perfil para reconhecimento de um microrganismo, utilizando os picos referentes às mais abundantes massas moleculares registradas nos espectros. Analisando os picos pode-se designar um padrão, como uma impressão digital, para reconhecer um microrganismo, esta técnica é conhecida como PMF, do inglês Peptide Mass Fingerprint. Outra forma de identificar um espectro de massa, é através dos picos que são esperados que se apresentem no espectro, modelo qual este trabalho utilizou. Para prever os picos esperados no espectro, foram calculados os pesos moleculares estimados de proteínas ribossomais. Essas proteínas são denominadas house keeping, ou seja são presentes para o próprio funcionamento celular. Além de apresentarem grande abundância no conteúdo procariótico, elas são altamente conservadas, não alterando sua fisiologia para diferentes meios ou estágios celulares. Os pesos estimados formaram uma base de dados presumida, contendo todas as informações obtidas do repositório do NCBI. Esta base de dados presumida foi generalizada para taxonomia a nível de espécie, e posteriormente submetida à um aprendizado de máquina. Com isso foi possível obter um modelo classificatório de microrganismos baseado em valores de proteínas ribossomais. Utilizando o modelo gerado pelo aprendizado de máquina, foi desenvolvido um software chamado Ribopeaks, capaz classificar os microrganismos a nível de espécie com acurácia de 94.83%, considerando as espécies correlatas. Também foram observados os resultados a nível taxonômico de gênero, que obteve 98.69% de assertividade. Valores de massas moleculares ribossomais biológicas retiradas da literatura também foram testadas no modelo obtido, obtendo uma assertividade total de 84,48% para acertos em nível de espécie, e 90,51% de acerto em nível de gênero.
id UEPG_bf8f526be23a3159f79dd26d6d689139
oai_identifier_str oai:tede2.uepg.br:prefix/2408
network_acronym_str UEPG
network_name_str Biblioteca Digital de Teses e Dissertações da UEPG
repository_id_str
spelling Campos Júnior, Arion dehttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4708079Y6Etto, Rafael MazerGuimarães, Alaine MargareteCruz, Leonardo MagalhãesRocha, José CarlosSteffens, Maria Berenice Reynaudhttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4489573Y2Tomachewski, Douglas2017-11-30T10:57:51Z2017-11-302017-11-30T10:57:51Z2017-09-04TOMACHEWSKI, Douglas. Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais. 2017, 72f. Dissertação (Mestrado em Computação Aplicada), Universidade Estadual de Ponta Grossa, Ponta Grossa, 2017.http://tede2.uepg.br/jspui/handle/prefix/2408A identificação de microrganismos, nas áreas da saúde e agricultura, é essencial para compreender a composição e o desenvolvimento do meio. Novas técnicas estão buscando identificar estes microrganismos com mais acurácia, rapidez e com menor custo. Uma técnica cada vez mais estudada e utilizada atualmente é a identificação de microrganismos através de espectros de massa, gerados por uma espectrometria de massa. Os espectros de massa são capazes de gerar um perfil para reconhecimento de um microrganismo, utilizando os picos referentes às mais abundantes massas moleculares registradas nos espectros. Analisando os picos pode-se designar um padrão, como uma impressão digital, para reconhecer um microrganismo, esta técnica é conhecida como PMF, do inglês Peptide Mass Fingerprint. Outra forma de identificar um espectro de massa, é através dos picos que são esperados que se apresentem no espectro, modelo qual este trabalho utilizou. Para prever os picos esperados no espectro, foram calculados os pesos moleculares estimados de proteínas ribossomais. Essas proteínas são denominadas house keeping, ou seja são presentes para o próprio funcionamento celular. Além de apresentarem grande abundância no conteúdo procariótico, elas são altamente conservadas, não alterando sua fisiologia para diferentes meios ou estágios celulares. Os pesos estimados formaram uma base de dados presumida, contendo todas as informações obtidas do repositório do NCBI. Esta base de dados presumida foi generalizada para taxonomia a nível de espécie, e posteriormente submetida à um aprendizado de máquina. Com isso foi possível obter um modelo classificatório de microrganismos baseado em valores de proteínas ribossomais. Utilizando o modelo gerado pelo aprendizado de máquina, foi desenvolvido um software chamado Ribopeaks, capaz classificar os microrganismos a nível de espécie com acurácia de 94.83%, considerando as espécies correlatas. Também foram observados os resultados a nível taxonômico de gênero, que obteve 98.69% de assertividade. Valores de massas moleculares ribossomais biológicas retiradas da literatura também foram testadas no modelo obtido, obtendo uma assertividade total de 84,48% para acertos em nível de espécie, e 90,51% de acerto em nível de gênero.Identification of microorganisms in health and agriculture areas is essential to understand the composition and development of the environment. New techniques are seeking to identify these microorganisms with more accuracy, speed and at a lower cost. Nowadays, a technique that is increasingly studied and used is the identification of microorganisms through mass spectra, generated by mass spectrometry. The mass spectra are able to generate a recognition profile from a microorganism, using the referring peaks to the most abundant molecular masses recorded in the spectrum. By analyzing the peaks, it is possible to designate a pattern, such as a fingerprint, to recognize a microorganism; this technique is known as the Peptide Mass Fingerprint (PMF). Another way to identify a mass spectrum is through the peaks that are expected to appear in the spectrum, which model this work used. To predict the expected peaks in the spectrum, the estimated molecular weights of ribosomal proteins were calculated. These proteins are responsible for the cellular functioning itself, so-called housekeeping. Besides they being abundant in the prokaryotic content, they are highly conserved, not altering their physiology to different environments or cell stage. The estimated weights formed a presumed database, containing all the information obtained from the NCBI’s repository. This presumed database was generalized at the specie level and later submitted to a machine learning algorithm. With this, it was possible to obtain a microorganism’s classificatory model based on ribosomal proteins values. Using the generated model by the machine learning, a software called Ribopeaks was developed to classify the microorganisms at the specie level with an accuracy of 94.83%, considering the related species. It was also observed the results at genus level, which obtained 98.69% of assertiveness. Values of biological ribosomal molecular masses from the literature were also tested in the acquihired model, obtaining a total assertiveness of 84.48% at the specie level, and 90.51% at the genus level.Submitted by Angela Maria de Oliveira (amolivei@uepg.br) on 2017-11-30T10:57:51Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Douglas Tomachewski.pdf: 4287227 bytes, checksum: 4ee4e1b519755860efa6f01d55b3569f (MD5)Made available in DSpace on 2017-11-30T10:57:51Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Douglas Tomachewski.pdf: 4287227 bytes, checksum: 4ee4e1b519755860efa6f01d55b3569f (MD5) Previous issue date: 2017-09-04porUniversidade Estadual de Ponta GrossaPrograma de Pós Graduação Computação AplicadaUEPGBrasilDepartamento de InformáticaAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOEspectrometria de massaProteínas ribossomaisPesos moleculares estimadosAprendizado de máquinaMass spectrometryRibosomal proteinsEstimated molecular weightsMachine learningUtilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomaisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Biblioteca Digital de Teses e Dissertações da UEPGinstname:Universidade Estadual de Ponta Grossa (UEPG)instacron:UEPGLICENSElicense.txtlicense.txttext/plain; charset=utf-81866http://tede2.uepg.br/jspui/bitstream/prefix/2408/3/license.txt43cd690d6a359e86c1fe3d5b7cba0c9bMD53CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811http://tede2.uepg.br/jspui/bitstream/prefix/2408/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52ORIGINALDouglas Tomachewski.pdfDouglas Tomachewski.pdfdissertação completa em pdfapplication/pdf4287227http://tede2.uepg.br/jspui/bitstream/prefix/2408/1/Douglas%20Tomachewski.pdf4ee4e1b519755860efa6f01d55b3569fMD51prefix/24082017-11-30 08:57:51.262oai:tede2.uepg.br:prefix/2408TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIApJbnN0aXR1Y2lvbmFsIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCAgdHJhZHV6aXIgKGNvbmZvcm1lIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBhIApzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIApmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIG8gRGVwb3NpdGEgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byAKcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIERlcG9zaXRhIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZSBzdWEgcHVibGljYcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIAplIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSBwdWJsaWNhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIApWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgCmRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSBwdWJsaWNhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgCm9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciBhbyBEZXBvc2l0YSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgCm5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIApvdSBubyBjb250ZcO6ZG8gZGEgcHVibGljYcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0HDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSBBUE9JTyBERSBVTUEgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyAKT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgCkVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpPIERlcG9zaXRhIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUgKHMpIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIAphdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Teses e Dissertaçõeshttps://tede2.uepg.br/jspui/PUBhttp://tede2.uepg.br/oai/requestbicen@uepg.br||mv_fidelis@yahoo.com.bropendoar:2017-11-30T10:57:51Biblioteca Digital de Teses e Dissertações da UEPG - Universidade Estadual de Ponta Grossa (UEPG)false
dc.title.pt_BR.fl_str_mv Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais
title Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais
spellingShingle Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais
Tomachewski, Douglas
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Espectrometria de massa
Proteínas ribossomais
Pesos moleculares estimados
Aprendizado de máquina
Mass spectrometry
Ribosomal proteins
Estimated molecular weights
Machine learning
title_short Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais
title_full Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais
title_fullStr Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais
title_full_unstemmed Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais
title_sort Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais
author Tomachewski, Douglas
author_facet Tomachewski, Douglas
author_role author
dc.contributor.advisor1.fl_str_mv Campos Júnior, Arion de
dc.contributor.advisor1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4708079Y6
dc.contributor.advisor-co1.fl_str_mv Etto, Rafael Mazer
dc.contributor.referee1.fl_str_mv Guimarães, Alaine Margarete
dc.contributor.referee2.fl_str_mv Cruz, Leonardo Magalhães
dc.contributor.referee3.fl_str_mv Rocha, José Carlos
dc.contributor.referee4.fl_str_mv Steffens, Maria Berenice Reynaud
dc.contributor.authorLattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4489573Y2
dc.contributor.author.fl_str_mv Tomachewski, Douglas
contributor_str_mv Campos Júnior, Arion de
Etto, Rafael Mazer
Guimarães, Alaine Margarete
Cruz, Leonardo Magalhães
Rocha, José Carlos
Steffens, Maria Berenice Reynaud
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Espectrometria de massa
Proteínas ribossomais
Pesos moleculares estimados
Aprendizado de máquina
Mass spectrometry
Ribosomal proteins
Estimated molecular weights
Machine learning
dc.subject.por.fl_str_mv Espectrometria de massa
Proteínas ribossomais
Pesos moleculares estimados
Aprendizado de máquina
Mass spectrometry
Ribosomal proteins
Estimated molecular weights
Machine learning
description A identificação de microrganismos, nas áreas da saúde e agricultura, é essencial para compreender a composição e o desenvolvimento do meio. Novas técnicas estão buscando identificar estes microrganismos com mais acurácia, rapidez e com menor custo. Uma técnica cada vez mais estudada e utilizada atualmente é a identificação de microrganismos através de espectros de massa, gerados por uma espectrometria de massa. Os espectros de massa são capazes de gerar um perfil para reconhecimento de um microrganismo, utilizando os picos referentes às mais abundantes massas moleculares registradas nos espectros. Analisando os picos pode-se designar um padrão, como uma impressão digital, para reconhecer um microrganismo, esta técnica é conhecida como PMF, do inglês Peptide Mass Fingerprint. Outra forma de identificar um espectro de massa, é através dos picos que são esperados que se apresentem no espectro, modelo qual este trabalho utilizou. Para prever os picos esperados no espectro, foram calculados os pesos moleculares estimados de proteínas ribossomais. Essas proteínas são denominadas house keeping, ou seja são presentes para o próprio funcionamento celular. Além de apresentarem grande abundância no conteúdo procariótico, elas são altamente conservadas, não alterando sua fisiologia para diferentes meios ou estágios celulares. Os pesos estimados formaram uma base de dados presumida, contendo todas as informações obtidas do repositório do NCBI. Esta base de dados presumida foi generalizada para taxonomia a nível de espécie, e posteriormente submetida à um aprendizado de máquina. Com isso foi possível obter um modelo classificatório de microrganismos baseado em valores de proteínas ribossomais. Utilizando o modelo gerado pelo aprendizado de máquina, foi desenvolvido um software chamado Ribopeaks, capaz classificar os microrganismos a nível de espécie com acurácia de 94.83%, considerando as espécies correlatas. Também foram observados os resultados a nível taxonômico de gênero, que obteve 98.69% de assertividade. Valores de massas moleculares ribossomais biológicas retiradas da literatura também foram testadas no modelo obtido, obtendo uma assertividade total de 84,48% para acertos em nível de espécie, e 90,51% de acerto em nível de gênero.
publishDate 2017
dc.date.accessioned.fl_str_mv 2017-11-30T10:57:51Z
dc.date.available.fl_str_mv 2017-11-30
2017-11-30T10:57:51Z
dc.date.issued.fl_str_mv 2017-09-04
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv TOMACHEWSKI, Douglas. Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais. 2017, 72f. Dissertação (Mestrado em Computação Aplicada), Universidade Estadual de Ponta Grossa, Ponta Grossa, 2017.
dc.identifier.uri.fl_str_mv http://tede2.uepg.br/jspui/handle/prefix/2408
identifier_str_mv TOMACHEWSKI, Douglas. Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais. 2017, 72f. Dissertação (Mestrado em Computação Aplicada), Universidade Estadual de Ponta Grossa, Ponta Grossa, 2017.
url http://tede2.uepg.br/jspui/handle/prefix/2408
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Estadual de Ponta Grossa
dc.publisher.program.fl_str_mv Programa de Pós Graduação Computação Aplicada
dc.publisher.initials.fl_str_mv UEPG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Departamento de Informática
publisher.none.fl_str_mv Universidade Estadual de Ponta Grossa
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UEPG
instname:Universidade Estadual de Ponta Grossa (UEPG)
instacron:UEPG
instname_str Universidade Estadual de Ponta Grossa (UEPG)
instacron_str UEPG
institution UEPG
reponame_str Biblioteca Digital de Teses e Dissertações da UEPG
collection Biblioteca Digital de Teses e Dissertações da UEPG
bitstream.url.fl_str_mv http://tede2.uepg.br/jspui/bitstream/prefix/2408/3/license.txt
http://tede2.uepg.br/jspui/bitstream/prefix/2408/2/license_rdf
http://tede2.uepg.br/jspui/bitstream/prefix/2408/1/Douglas%20Tomachewski.pdf
bitstream.checksum.fl_str_mv 43cd690d6a359e86c1fe3d5b7cba0c9b
e39d27027a6cc9cb039ad269a5db8e34
4ee4e1b519755860efa6f01d55b3569f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UEPG - Universidade Estadual de Ponta Grossa (UEPG)
repository.mail.fl_str_mv bicen@uepg.br||mv_fidelis@yahoo.com.br
_version_ 1809460459539005440