Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest
Autor(a) principal: | |
---|---|
Data de Publicação: | 2016 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Monografias da UnB |
Texto Completo: | http://bdm.unb.br/handle/10483/17059 |
Resumo: | Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2016. |
id |
UNB-2_2e66cd3eb24af65b4c61584452f142f7 |
---|---|
oai_identifier_str |
oai:bdm.unb.br:10483/17059 |
network_acronym_str |
UNB-2 |
network_name_str |
Biblioteca Digital de Monografias da UnB |
repository_id_str |
11571 |
spelling |
Santos, Daniel Dantas Nascimento dosWalter, Maria Emilia Machado TellesSANTOS, Daniel Dantas Nascimento dos. Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest. 2016. x, 105 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2016.http://bdm.unb.br/handle/10483/17059Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2016.RNAs não-codificantes longos (lncRNAs) são uma classe grande e diversificada de moléculas de RNAs não-codificadores (ncRNAs) com um comprimento de mais de 200 nucleotídeos. LncRNAs tem pouca capacidade de codificar proteínas. Muitos estudos confirmam que o genoma humano contém milhares de lncRNAs que estão envolvidos na regulação de genes e em diversos outros fenômenos nos mecanismos celulares. A identificação e classificação de ncRNAs não é simples, não sendo ainda conhecidas características determinantes para identificar e classificar ncRNAs. Com o advento das tecnologias de sequenciamento avançadas, grande quantidade de sequências não foram ainda analisadas. Neste trabalho, avaliamos características que podem ser utilizadas em métodos de aprendizagem de máquina para predizer lncRNAs. Em particular, usamos o Random Forest por ser um dos algoritmos de aprendizagem de máquina mais precisos disponíveis. Além disso, fornece estimativas de quais variáveis são importantes na classificação. Foi desenvolvido um estudo de caso para calcular a performance do modelo proposto para o Homo sapiens (humano). Neste trabalho, além de mostrar que o Random Forest é um algoritmo apropriado para construção de modelos preditivos, apresentando boa acurácia ao predizer transcritos de lncRNAs e PCTs corretamente, características que podem ser importantes para a classificação dos lncRNAs foram identificadas.Submitted by Raiane Costa da Silva (raianesilva@bce.unb.br) on 2017-05-22T20:45:53Z No. of bitstreams: 3 license_text: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) 2016_DanielDantasSantos_tcc.pdf: 3276519 bytes, checksum: 61ff9ffb2dc96079e37d224eefd60c12 (MD5)Approved for entry into archive by Luanna Maia (luanna@bce.unb.br) on 2017-05-29T11:44:39Z (GMT) No. of bitstreams: 3 license_text: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) 2016_DanielDantasSantos_tcc.pdf: 3276519 bytes, checksum: 61ff9ffb2dc96079e37d224eefd60c12 (MD5)Made available in DSpace on 2017-05-29T11:44:39Z (GMT). No. of bitstreams: 3 license_text: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) 2016_DanielDantasSantos_tcc.pdf: 3276519 bytes, checksum: 61ff9ffb2dc96079e37d224eefd60c12 (MD5)Long non-coding RNAs (lncRNAs) are a large and diverse class of ncRNA molecules with a length of more than 200 nucleotides. LncRNAs have little ability to encode proteins. Many studies confirm that the human genome contains thousands of lncRNAs that are involved in the regulation of genes and in several other cellular mechanical phenomena. The identification and classification of ncRNAs is not simple, and determinant characteristics to identify and classify ncRNAs are not yet known. With the advent of high-through sequencing technologies, a large number of sequences were not yet analyzed. This research evaluates features that can be used in machine learning methods to predict lncRNAs. In particular, Random Forest was used as it provides one of the most accurate machine learning algorithms available. Moreover, it estimates of which variables are important to classification. A case study was developed to measure the performance of the proposed model for the Homo sapiens (human). In this work, besides showing that Random Forest is an appropriate algorithm for constructing predictive models while accurately predicting both lncRNAs and PCTs transcripts, characteristics that may be important for the classification of the lncRNAs were identified.RNAs não-codificadoresAlgoritmosAprendizado do computadorExtração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forestinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis2017-05-29T11:44:39Z2017-05-29T11:44:39Z2016-12-08info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Monografias da UnBinstname:Universidade de Brasília (UnB)instacron:UNBORIGINAL2016_DanielDantasSantos_tcc.pdf2016_DanielDantasSantos_tcc.pdfapplication/pdf3276519http://bdm.unb.br/xmlui/bitstream/10483/17059/1/2016_DanielDantasSantos_tcc.pdf61ff9ffb2dc96079e37d224eefd60c12MD51CC-LICENSElicense_urllicense_urltext/plain49http://bdm.unb.br/xmlui/bitstream/10483/17059/2/license_url4afdbb8c545fd630ea7db775da747b2fMD52license_textlicense_textapplication/octet-stream0http://bdm.unb.br/xmlui/bitstream/10483/17059/3/license_textd41d8cd98f00b204e9800998ecf8427eMD53license_rdflicense_rdfapplication/octet-stream0http://bdm.unb.br/xmlui/bitstream/10483/17059/4/license_rdfd41d8cd98f00b204e9800998ecf8427eMD54LICENSElicense.txtlicense.txttext/plain1817http://bdm.unb.br/xmlui/bitstream/10483/17059/5/license.txt21554873e56ad8ddc69c092699b98f95MD5510483/170592017-05-29 08:44:39.235oai:bdm.unb.br:10483/17059w4kgbmVjZXNzw6FyaW8gY29uY29yZGFyIGNvbSBhIGxpY2Vuw6dhIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhLAphbnRlcyBxdWUgbyBkb2N1bWVudG8gcG9zc2EgYXBhcmVjZXIgbmEgQmlibGlvdGVjYSBEaWdpdGFsIGRhIFByb2R1w6fDo28gCkRpc2NlbnRlIGRhIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEuIFBvciBmYXZvciwgbGVpYSBhCmxpY2Vuw6dhIGF0ZW50YW1lbnRlLiBDYXNvIG5lY2Vzc2l0ZSBkZSBhbGd1bSBlc2NsYXJlY2ltZW50byBlbnRyZSBlbQpjb250YXRvIGF0cmF2w6lzIGRlOiBiZG1AYmNlLnVuYi5iciBvdSAzMTA3LTI2ODcuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQW8gYXNzaW5hciBlIGVudHJlZ2FyIGVzdGEgbGljZW7Dp2EsIG8vYSBTci4vU3JhLiAoYXV0b3Igb3UgZGV0ZW50b3IgZG9zCmRpcmVpdG9zIGRlIGF1dG9yKToKCmEpIENvbmNlZGUgw6AgVW5pdmVyc2lkYWRlIGRlIEJyYXPDrWxpYSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUKcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGNvbXVuaWNhciBlL291CmRpc3RyaWJ1aXIgbyBkb2N1bWVudG8gZW50cmVndWUgKGluY2x1aW5kbyBvIHJlc3Vtby9hYnN0cmFjdCkgZW0KZm9ybWF0byBkaWdpdGFsIG91IGltcHJlc3NvIGUgZW0gcXVhbHF1ZXIgbWVpby4KCmIpIERlY2xhcmEgcXVlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIHNldSB0cmFiYWxobyBvcmlnaW5hbCwgZSBxdWUKZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYQp0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50byBsaGUgw6kKcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBvdXRyYSBwZXNzb2Egb3UgZW50aWRhZGUuCgpjKSBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSBjb250w6ltIG1hdGVyaWFsIGRvIHF1YWwgbsOjbyBkZXTDqW0gb3MKZGlyZWl0b3MgZGUgYXV0b3IsIGRlY2xhcmEgcXVlIG9idGV2ZSBhdXRvcml6YcOnw6NvIGRvIGRldGVudG9yIGRvcwpkaXJlaXRvcyBkZSBhdXRvciBwYXJhIGNvbmNlZGVyIMOgIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEgb3MgZGlyZWl0b3MKcmVxdWVyaWRvcyBwb3IgZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBjdWpvcyBkaXJlaXRvcyBzw6NvIGRlCnRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIG91CmNvbnRlw7pkbyBkbyBkb2N1bWVudG8gZW50cmVndWUuCgpTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbwpwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUgbsOjbyBhIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEsIGRlY2xhcmEgcXVlCmN1bXByaXUgcXVhaXNxdWVyIG9icmlnYcOnw7VlcyBleGlnaWRhcyBwZWxvIHJlc3BlY3Rpdm8gY29udHJhdG8gb3UKYWNvcmRvLgoKQSBVbml2ZXJzaWRhZGUgZGUgQnJhc8OtbGlhIGlkZW50aWZpY2Fyw6EgY2xhcmFtZW50ZSBvKHMpIHNldSAocykgbm9tZSAocykKY29tbyBvIChzKSBhdXRvciAoZXMpIG91IGRldGVudG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50bwplbnRyZWd1ZSwgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRhcyBwZXJtaXRpZGFzIHBvcgplc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Monografiahttps://bdm.unb.br/PUBhttp://bdm.unb.br/oai/requestbdm@bce.unb.br||patricia@bce.unb.bropendoar:115712017-05-29T11:44:39Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB)false |
dc.title.pt_BR.fl_str_mv |
Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest |
title |
Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest |
spellingShingle |
Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest Santos, Daniel Dantas Nascimento dos RNAs não-codificadores Algoritmos Aprendizado do computador |
title_short |
Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest |
title_full |
Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest |
title_fullStr |
Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest |
title_full_unstemmed |
Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest |
title_sort |
Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest |
author |
Santos, Daniel Dantas Nascimento dos |
author_facet |
Santos, Daniel Dantas Nascimento dos |
author_role |
author |
dc.contributor.author.fl_str_mv |
Santos, Daniel Dantas Nascimento dos |
dc.contributor.advisor1.fl_str_mv |
Walter, Maria Emilia Machado Telles |
contributor_str_mv |
Walter, Maria Emilia Machado Telles |
dc.subject.keyword.pt_BR.fl_str_mv |
RNAs não-codificadores Algoritmos Aprendizado do computador |
topic |
RNAs não-codificadores Algoritmos Aprendizado do computador |
description |
Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2016. |
publishDate |
2016 |
dc.date.submitted.none.fl_str_mv |
2016-12-08 |
dc.date.accessioned.fl_str_mv |
2017-05-29T11:44:39Z |
dc.date.available.fl_str_mv |
2017-05-29T11:44:39Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
SANTOS, Daniel Dantas Nascimento dos. Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest. 2016. x, 105 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2016. |
dc.identifier.uri.fl_str_mv |
http://bdm.unb.br/handle/10483/17059 |
identifier_str_mv |
SANTOS, Daniel Dantas Nascimento dos. Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest. 2016. x, 105 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2016. |
url |
http://bdm.unb.br/handle/10483/17059 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Monografias da UnB instname:Universidade de Brasília (UnB) instacron:UNB |
instname_str |
Universidade de Brasília (UnB) |
instacron_str |
UNB |
institution |
UNB |
reponame_str |
Biblioteca Digital de Monografias da UnB |
collection |
Biblioteca Digital de Monografias da UnB |
bitstream.url.fl_str_mv |
http://bdm.unb.br/xmlui/bitstream/10483/17059/1/2016_DanielDantasSantos_tcc.pdf http://bdm.unb.br/xmlui/bitstream/10483/17059/2/license_url http://bdm.unb.br/xmlui/bitstream/10483/17059/3/license_text http://bdm.unb.br/xmlui/bitstream/10483/17059/4/license_rdf http://bdm.unb.br/xmlui/bitstream/10483/17059/5/license.txt |
bitstream.checksum.fl_str_mv |
61ff9ffb2dc96079e37d224eefd60c12 4afdbb8c545fd630ea7db775da747b2f d41d8cd98f00b204e9800998ecf8427e d41d8cd98f00b204e9800998ecf8427e 21554873e56ad8ddc69c092699b98f95 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB) |
repository.mail.fl_str_mv |
bdm@bce.unb.br||patricia@bce.unb.br |
_version_ |
1813907922274484224 |