Classificação de proteínas expostas na superficie com Random Forest

Detalhes bibliográficos
Autor(a) principal: Moreira, Amanda Silva
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFU
Texto Completo: https://repositorio.ufu.br/handle/123456789/36327
Resumo: One of the leading causes of disease and death worldwide is bacterial infections. For example, we can mention tuberculosis, caused by the bacterium Mycobacterium tuberculosis, which still kills one and a half million people worldwide yearly, according to recent data from the World Health Organization. Vaccination is the best strategy to combat these infections. However, developing vaccines for pathogens have obstacles, such as identifying target proteins. For Mycobacterium tuberculosis alone, there are more than 4,000 proteins that are candidates for targets for building a vaccine. An alternative is the use of genomic information in the search for proteins that are good candidates. This work aimed to test popular Machine Learning algorithms, implemented in WEKA software, to classify surface exposed proteins, using the hydrophobic pattern in the amino acid sequence of 40 genomes causing severe human diseases. The random forests had a 72.83% accuracy, performing as well as the Support Vector Machine and Multilayer Perceptron algorithms, reaching of 70 and 65% accuracy, respectively. The results show the satisfactory performance of the algorithms used to classify proteins exposed on the surface, especially considering the difficulty in identifying them.
id UFU_54e81dbc5def921d193e1bf3ec86dcce
oai_identifier_str oai:repositorio.ufu.br:123456789/36327
network_acronym_str UFU
network_name_str Repositório Institucional da UFU
repository_id_str
spelling Classificação de proteínas expostas na superficie com Random ForestAprendizado de máquinaRandom ForestProteínas bacterianas expostasPSEWEKAVacinasCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOOne of the leading causes of disease and death worldwide is bacterial infections. For example, we can mention tuberculosis, caused by the bacterium Mycobacterium tuberculosis, which still kills one and a half million people worldwide yearly, according to recent data from the World Health Organization. Vaccination is the best strategy to combat these infections. However, developing vaccines for pathogens have obstacles, such as identifying target proteins. For Mycobacterium tuberculosis alone, there are more than 4,000 proteins that are candidates for targets for building a vaccine. An alternative is the use of genomic information in the search for proteins that are good candidates. This work aimed to test popular Machine Learning algorithms, implemented in WEKA software, to classify surface exposed proteins, using the hydrophobic pattern in the amino acid sequence of 40 genomes causing severe human diseases. The random forests had a 72.83% accuracy, performing as well as the Support Vector Machine and Multilayer Perceptron algorithms, reaching of 70 and 65% accuracy, respectively. The results show the satisfactory performance of the algorithms used to classify proteins exposed on the surface, especially considering the difficulty in identifying them.UFU - Universidade Federal de UberlândiaTrabalho de Conclusão de Curso (Graduação)Uma das principais causas de doenças e mortes no mundo são infecções bacterianas. A título de exemplo, podemos citar a tuberculose, causada pela bactéria Mycobacterium tuberculosis, que ainda mata um milhão e meio de pessoas no mundo, por ano, de acordo com dados recentes da Organização Mundial da Saúde. A vacinação é a melhor estratégia no combate à estas infecções. Entretanto, o desenvolvimento de vacinas para patógenos tem obstáculos, como por exemplo, identificar as proteínas alvo. Somente para Mycobacterium tuberculosis há mais de quatro mil proteínas candidatas a alvos para construção de uma vacina. Uma alternativa é o uso de informações genômicas na busca de proteínas que são boas candidatas. O objetivo deste estudo é testar algoritmos populares em Aprendizado de Máquina , implementados no software WEKA, para classificar proteínas expostas na superfície, a partir do padrão hidrofóbico presente na sequência de aminoácidos de 40 genomas, causadores de doenças graves em humanos. As florestas aleatórias tiveram 72,83% de acurácia, tendo tão bons resultados quanto os algoritmos Support Vector Machine e Multilayer Perceptron que alcançaram 70 e 65% de acurácia, respectivamente. Os resultados mostram o bom desempenho dos algoritmos usados para classificar as proteínas expostas na superfície, principalmente considerando a dificuldade em identificá-las.Universidade Federal de UberlândiaBrasilCiência da ComputaçãoSantos, Anderson Rodrigues doshttp://lattes.cnpq.br/3752226356973936Soares, Alexsandro Santoshttp://lattes.cnpq.br/8559724221713699Gabriel, Paulo Henrique Ribeirohttp://lattes.cnpq.br/3181954061121790Moreira, Amanda Silva2022-10-25T14:29:12Z2022-10-25T14:29:12Z2022-08-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfMOREIRA, Amanda Silva. Classificação de proteínas expostas na superfície com Random Forest. 2022. 53 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) – Universidade Federal de Uberlândia, Uberlândia, Uberlândia, 2022.https://repositorio.ufu.br/handle/123456789/36327porhttp://creativecommons.org/licenses/by/3.0/us/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFUinstname:Universidade Federal de Uberlândia (UFU)instacron:UFU2022-10-26T06:23:19Zoai:repositorio.ufu.br:123456789/36327Repositório InstitucionalONGhttp://repositorio.ufu.br/oai/requestdiinf@dirbi.ufu.bropendoar:2022-10-26T06:23:19Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)false
dc.title.none.fl_str_mv Classificação de proteínas expostas na superficie com Random Forest
title Classificação de proteínas expostas na superficie com Random Forest
spellingShingle Classificação de proteínas expostas na superficie com Random Forest
Moreira, Amanda Silva
Aprendizado de máquina
Random Forest
Proteínas bacterianas expostas
PSE
WEKA
Vacinas
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Classificação de proteínas expostas na superficie com Random Forest
title_full Classificação de proteínas expostas na superficie com Random Forest
title_fullStr Classificação de proteínas expostas na superficie com Random Forest
title_full_unstemmed Classificação de proteínas expostas na superficie com Random Forest
title_sort Classificação de proteínas expostas na superficie com Random Forest
author Moreira, Amanda Silva
author_facet Moreira, Amanda Silva
author_role author
dc.contributor.none.fl_str_mv Santos, Anderson Rodrigues dos
http://lattes.cnpq.br/3752226356973936
Soares, Alexsandro Santos
http://lattes.cnpq.br/8559724221713699
Gabriel, Paulo Henrique Ribeiro
http://lattes.cnpq.br/3181954061121790
dc.contributor.author.fl_str_mv Moreira, Amanda Silva
dc.subject.por.fl_str_mv Aprendizado de máquina
Random Forest
Proteínas bacterianas expostas
PSE
WEKA
Vacinas
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic Aprendizado de máquina
Random Forest
Proteínas bacterianas expostas
PSE
WEKA
Vacinas
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description One of the leading causes of disease and death worldwide is bacterial infections. For example, we can mention tuberculosis, caused by the bacterium Mycobacterium tuberculosis, which still kills one and a half million people worldwide yearly, according to recent data from the World Health Organization. Vaccination is the best strategy to combat these infections. However, developing vaccines for pathogens have obstacles, such as identifying target proteins. For Mycobacterium tuberculosis alone, there are more than 4,000 proteins that are candidates for targets for building a vaccine. An alternative is the use of genomic information in the search for proteins that are good candidates. This work aimed to test popular Machine Learning algorithms, implemented in WEKA software, to classify surface exposed proteins, using the hydrophobic pattern in the amino acid sequence of 40 genomes causing severe human diseases. The random forests had a 72.83% accuracy, performing as well as the Support Vector Machine and Multilayer Perceptron algorithms, reaching of 70 and 65% accuracy, respectively. The results show the satisfactory performance of the algorithms used to classify proteins exposed on the surface, especially considering the difficulty in identifying them.
publishDate 2022
dc.date.none.fl_str_mv 2022-10-25T14:29:12Z
2022-10-25T14:29:12Z
2022-08-19
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv MOREIRA, Amanda Silva. Classificação de proteínas expostas na superfície com Random Forest. 2022. 53 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) – Universidade Federal de Uberlândia, Uberlândia, Uberlândia, 2022.
https://repositorio.ufu.br/handle/123456789/36327
identifier_str_mv MOREIRA, Amanda Silva. Classificação de proteínas expostas na superfície com Random Forest. 2022. 53 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) – Universidade Federal de Uberlândia, Uberlândia, Uberlândia, 2022.
url https://repositorio.ufu.br/handle/123456789/36327
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by/3.0/us/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/3.0/us/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Uberlândia
Brasil
Ciência da Computação
publisher.none.fl_str_mv Universidade Federal de Uberlândia
Brasil
Ciência da Computação
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFU
instname:Universidade Federal de Uberlândia (UFU)
instacron:UFU
instname_str Universidade Federal de Uberlândia (UFU)
instacron_str UFU
institution UFU
reponame_str Repositório Institucional da UFU
collection Repositório Institucional da UFU
repository.name.fl_str_mv Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)
repository.mail.fl_str_mv diinf@dirbi.ufu.br
_version_ 1813711485020405760