Avaliação de algoritmos de aprendizagem de máquinas na detecção de mutações somáticas

Detalhes bibliográficos
Autor(a) principal: Almeida, Pedro Aurélio Coelho de
Data de Publicação: 2019
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Biblioteca Digital de Monografias da UnB
Texto Completo: https://bdm.unb.br/handle/10483/26532
Resumo: Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019.
id UNB-2_c0d376af1d937f07582f5cbaf9e98d6c
oai_identifier_str oai:bdm.unb.br:10483/26532
network_acronym_str UNB-2
network_name_str Biblioteca Digital de Monografias da UnB
repository_id_str 11571
spelling Almeida, Pedro Aurélio Coelho deBorges, Díbio LeandroALMEIDA, Pedro Aurélio Coelho de. Avaliação de algoritmos de aprendizagem de máquinas na detecção de mutações somáticas. 2019. xv, 51 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2019.https://bdm.unb.br/handle/10483/26532Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019.O estudo do DNA é importante para aplicações clínicas e de pesquisa. Dada a complexi- dade de sua análise, o uso de ferramentas computacionais se torna extremamente vanta- joso. Este trabalho compara o desempenho dos modelos de aprendizagem de máquinas (Isolation e Random Forest) na detecção de mutações somáticas (inserções/remoções e polimorfismo de nucleotídeo único), utilizando os atributos calculados pela ferramenta chamada Strelka2. O treinamento dos modelos foi realizado por meio de validação cruzada do tipo k-fold (k=10) com avaliação das métricas de revocação e f1-score nas bases de testes utilizadas pelos autores do Strelka2. A partir destes testes, o Random Forest ap- resentou f1-scores maiores que 0,9, enquanto que o Isolation Forest resultou em valores inferiores a 0,75. Utilizar o Random Forest é recomendável quando se tem dados rotulados e se deseja alta revocação e precisão. Investigações futuras incluem a avaliação de outras técnicas de aprendizagem não supervisionada como mapas auto organizáveis e/ou uso de diferentes atributos para o Isolation Forest.Submitted by Kathryn Araujo (kathrynaraujo@bce.unb.br) on 2020-11-24T17:16:03Z No. of bitstreams: 1 2019_PedroAurelioCoelhoDeAlmeida_tcc.pdf: 1274686 bytes, checksum: feec633bf3578ab6e0184960e77b6ab3 (MD5)Approved for entry into archive by Luanna Maia (luanna@bce.unb.br) on 2021-02-02T12:51:00Z (GMT) No. of bitstreams: 1 2019_PedroAurelioCoelhoDeAlmeida_tcc.pdf: 1274686 bytes, checksum: feec633bf3578ab6e0184960e77b6ab3 (MD5)Made available in DSpace on 2021-02-02T12:51:00Z (GMT). No. of bitstreams: 1 2019_PedroAurelioCoelhoDeAlmeida_tcc.pdf: 1274686 bytes, checksum: feec633bf3578ab6e0184960e77b6ab3 (MD5)DNA analysis is very important for clinical and research purposes. Given its complexity, computers become useful tools. This work presents a comparison between both the Iso- lation and Random Forest machine learning techniques using the features calculated by the somatic mutation caller Strelka2 for both insertions/deletions and single nucleotide variants. Both models were calibrated using k-fold cross-validation (k=10) and evaluated considering recall and f1-score metrics for the test bases used by Strelka2. From these trials, Random Forest reached f1-scores greater than 0.9 while Isolation Forest presented values lower than 0.75 for the same metric. Using Random Forest is recommended when there is labeled data and when one requires high precision and recall. Future research would include evaluating different unsupervised learning models namely self organizing maps and/or using a different feature set to calibrate Isolation Forest.A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.info:eu-repo/semantics/openAccessDNAAprendizado de máquinaInteligência artificialAvaliação de algoritmos de aprendizagem de máquinas na detecção de mutações somáticasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis2021-02-02T12:51:00Z2021-02-02T12:51:00Z2019-11-14porreponame:Biblioteca Digital de Monografias da UnBinstname:Universidade de Brasília (UnB)instacron:UNBLICENSElicense.txtlicense.txttext/plain1817http://bdm.unb.br/xmlui/bitstream/10483/26532/2/license.txt21554873e56ad8ddc69c092699b98f95MD52ORIGINAL2019_PedroAurelioCoelhoDeAlmeida_tcc.pdf2019_PedroAurelioCoelhoDeAlmeida_tcc.pdfapplication/pdf1274686http://bdm.unb.br/xmlui/bitstream/10483/26532/1/2019_PedroAurelioCoelhoDeAlmeida_tcc.pdffeec633bf3578ab6e0184960e77b6ab3MD5110483/265322021-02-02 10:51:00.518oai:bdm.unb.br:10483/26532w4kgbmVjZXNzw6FyaW8gY29uY29yZGFyIGNvbSBhIGxpY2Vuw6dhIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhLAphbnRlcyBxdWUgbyBkb2N1bWVudG8gcG9zc2EgYXBhcmVjZXIgbmEgQmlibGlvdGVjYSBEaWdpdGFsIGRhIFByb2R1w6fDo28gCkRpc2NlbnRlIGRhIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEuIFBvciBmYXZvciwgbGVpYSBhCmxpY2Vuw6dhIGF0ZW50YW1lbnRlLiBDYXNvIG5lY2Vzc2l0ZSBkZSBhbGd1bSBlc2NsYXJlY2ltZW50byBlbnRyZSBlbQpjb250YXRvIGF0cmF2w6lzIGRlOiBiZG1AYmNlLnVuYi5iciBvdSAzMTA3LTI2ODcuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQW8gYXNzaW5hciBlIGVudHJlZ2FyIGVzdGEgbGljZW7Dp2EsIG8vYSBTci4vU3JhLiAoYXV0b3Igb3UgZGV0ZW50b3IgZG9zCmRpcmVpdG9zIGRlIGF1dG9yKToKCmEpIENvbmNlZGUgw6AgVW5pdmVyc2lkYWRlIGRlIEJyYXPDrWxpYSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUKcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGNvbXVuaWNhciBlL291CmRpc3RyaWJ1aXIgbyBkb2N1bWVudG8gZW50cmVndWUgKGluY2x1aW5kbyBvIHJlc3Vtby9hYnN0cmFjdCkgZW0KZm9ybWF0byBkaWdpdGFsIG91IGltcHJlc3NvIGUgZW0gcXVhbHF1ZXIgbWVpby4KCmIpIERlY2xhcmEgcXVlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIHNldSB0cmFiYWxobyBvcmlnaW5hbCwgZSBxdWUKZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYQp0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50byBsaGUgw6kKcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBvdXRyYSBwZXNzb2Egb3UgZW50aWRhZGUuCgpjKSBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSBjb250w6ltIG1hdGVyaWFsIGRvIHF1YWwgbsOjbyBkZXTDqW0gb3MKZGlyZWl0b3MgZGUgYXV0b3IsIGRlY2xhcmEgcXVlIG9idGV2ZSBhdXRvcml6YcOnw6NvIGRvIGRldGVudG9yIGRvcwpkaXJlaXRvcyBkZSBhdXRvciBwYXJhIGNvbmNlZGVyIMOgIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEgb3MgZGlyZWl0b3MKcmVxdWVyaWRvcyBwb3IgZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBjdWpvcyBkaXJlaXRvcyBzw6NvIGRlCnRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIG91CmNvbnRlw7pkbyBkbyBkb2N1bWVudG8gZW50cmVndWUuCgpTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbwpwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUgbsOjbyBhIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEsIGRlY2xhcmEgcXVlCmN1bXByaXUgcXVhaXNxdWVyIG9icmlnYcOnw7VlcyBleGlnaWRhcyBwZWxvIHJlc3BlY3Rpdm8gY29udHJhdG8gb3UKYWNvcmRvLgoKQSBVbml2ZXJzaWRhZGUgZGUgQnJhc8OtbGlhIGlkZW50aWZpY2Fyw6EgY2xhcmFtZW50ZSBvKHMpIHNldSAocykgbm9tZSAocykKY29tbyBvIChzKSBhdXRvciAoZXMpIG91IGRldGVudG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50bwplbnRyZWd1ZSwgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRhcyBwZXJtaXRpZGFzIHBvcgplc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Monografiahttps://bdm.unb.br/PUBhttp://bdm.unb.br/oai/requestbdm@bce.unb.br||patricia@bce.unb.bropendoar:115712021-02-02T12:51Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB)false
dc.title.pt_BR.fl_str_mv Avaliação de algoritmos de aprendizagem de máquinas na detecção de mutações somáticas
title Avaliação de algoritmos de aprendizagem de máquinas na detecção de mutações somáticas
spellingShingle Avaliação de algoritmos de aprendizagem de máquinas na detecção de mutações somáticas
Almeida, Pedro Aurélio Coelho de
DNA
Aprendizado de máquina
Inteligência artificial
title_short Avaliação de algoritmos de aprendizagem de máquinas na detecção de mutações somáticas
title_full Avaliação de algoritmos de aprendizagem de máquinas na detecção de mutações somáticas
title_fullStr Avaliação de algoritmos de aprendizagem de máquinas na detecção de mutações somáticas
title_full_unstemmed Avaliação de algoritmos de aprendizagem de máquinas na detecção de mutações somáticas
title_sort Avaliação de algoritmos de aprendizagem de máquinas na detecção de mutações somáticas
author Almeida, Pedro Aurélio Coelho de
author_facet Almeida, Pedro Aurélio Coelho de
author_role author
dc.contributor.author.fl_str_mv Almeida, Pedro Aurélio Coelho de
dc.contributor.advisor1.fl_str_mv Borges, Díbio Leandro
contributor_str_mv Borges, Díbio Leandro
dc.subject.keyword.pt_BR.fl_str_mv DNA
Aprendizado de máquina
Inteligência artificial
topic DNA
Aprendizado de máquina
Inteligência artificial
description Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019.
publishDate 2019
dc.date.submitted.none.fl_str_mv 2019-11-14
dc.date.accessioned.fl_str_mv 2021-02-02T12:51:00Z
dc.date.available.fl_str_mv 2021-02-02T12:51:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv ALMEIDA, Pedro Aurélio Coelho de. Avaliação de algoritmos de aprendizagem de máquinas na detecção de mutações somáticas. 2019. xv, 51 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2019.
dc.identifier.uri.fl_str_mv https://bdm.unb.br/handle/10483/26532
identifier_str_mv ALMEIDA, Pedro Aurélio Coelho de. Avaliação de algoritmos de aprendizagem de máquinas na detecção de mutações somáticas. 2019. xv, 51 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2019.
url https://bdm.unb.br/handle/10483/26532
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Monografias da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Biblioteca Digital de Monografias da UnB
collection Biblioteca Digital de Monografias da UnB
bitstream.url.fl_str_mv http://bdm.unb.br/xmlui/bitstream/10483/26532/2/license.txt
http://bdm.unb.br/xmlui/bitstream/10483/26532/1/2019_PedroAurelioCoelhoDeAlmeida_tcc.pdf
bitstream.checksum.fl_str_mv 21554873e56ad8ddc69c092699b98f95
feec633bf3578ab6e0184960e77b6ab3
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv bdm@bce.unb.br||patricia@bce.unb.br
_version_ 1801493136316301312