Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest

Detalhes bibliográficos
Autor(a) principal: Santos, Daniel Dantas Nascimento dos
Data de Publicação: 2016
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Biblioteca Digital de Monografias da UnB
Texto Completo: http://bdm.unb.br/handle/10483/17059
Resumo: Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2016.
id UNB-2_2e66cd3eb24af65b4c61584452f142f7
oai_identifier_str oai:bdm.unb.br:10483/17059
network_acronym_str UNB-2
network_name_str Biblioteca Digital de Monografias da UnB
repository_id_str 11571
spelling Santos, Daniel Dantas Nascimento dosWalter, Maria Emilia Machado TellesSANTOS, Daniel Dantas Nascimento dos. Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest. 2016. x, 105 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2016.http://bdm.unb.br/handle/10483/17059Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2016.RNAs não-codificantes longos (lncRNAs) são uma classe grande e diversificada de moléculas de RNAs não-codificadores (ncRNAs) com um comprimento de mais de 200 nucleotídeos. LncRNAs tem pouca capacidade de codificar proteínas. Muitos estudos confirmam que o genoma humano contém milhares de lncRNAs que estão envolvidos na regulação de genes e em diversos outros fenômenos nos mecanismos celulares. A identificação e classificação de ncRNAs não é simples, não sendo ainda conhecidas características determinantes para identificar e classificar ncRNAs. Com o advento das tecnologias de sequenciamento avançadas, grande quantidade de sequências não foram ainda analisadas. Neste trabalho, avaliamos características que podem ser utilizadas em métodos de aprendizagem de máquina para predizer lncRNAs. Em particular, usamos o Random Forest por ser um dos algoritmos de aprendizagem de máquina mais precisos disponíveis. Além disso, fornece estimativas de quais variáveis são importantes na classificação. Foi desenvolvido um estudo de caso para calcular a performance do modelo proposto para o Homo sapiens (humano). Neste trabalho, além de mostrar que o Random Forest é um algoritmo apropriado para construção de modelos preditivos, apresentando boa acurácia ao predizer transcritos de lncRNAs e PCTs corretamente, características que podem ser importantes para a classificação dos lncRNAs foram identificadas.Submitted by Raiane Costa da Silva (raianesilva@bce.unb.br) on 2017-05-22T20:45:53Z No. of bitstreams: 3 license_text: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) 2016_DanielDantasSantos_tcc.pdf: 3276519 bytes, checksum: 61ff9ffb2dc96079e37d224eefd60c12 (MD5)Approved for entry into archive by Luanna Maia (luanna@bce.unb.br) on 2017-05-29T11:44:39Z (GMT) No. of bitstreams: 3 license_text: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) 2016_DanielDantasSantos_tcc.pdf: 3276519 bytes, checksum: 61ff9ffb2dc96079e37d224eefd60c12 (MD5)Made available in DSpace on 2017-05-29T11:44:39Z (GMT). No. of bitstreams: 3 license_text: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) 2016_DanielDantasSantos_tcc.pdf: 3276519 bytes, checksum: 61ff9ffb2dc96079e37d224eefd60c12 (MD5)Long non-coding RNAs (lncRNAs) are a large and diverse class of ncRNA molecules with a length of more than 200 nucleotides. LncRNAs have little ability to encode proteins. Many studies confirm that the human genome contains thousands of lncRNAs that are involved in the regulation of genes and in several other cellular mechanical phenomena. The identification and classification of ncRNAs is not simple, and determinant characteristics to identify and classify ncRNAs are not yet known. With the advent of high-through sequencing technologies, a large number of sequences were not yet analyzed. This research evaluates features that can be used in machine learning methods to predict lncRNAs. In particular, Random Forest was used as it provides one of the most accurate machine learning algorithms available. Moreover, it estimates of which variables are important to classification. A case study was developed to measure the performance of the proposed model for the Homo sapiens (human). In this work, besides showing that Random Forest is an appropriate algorithm for constructing predictive models while accurately predicting both lncRNAs and PCTs transcripts, characteristics that may be important for the classification of the lncRNAs were identified.RNAs não-codificadoresAlgoritmosAprendizado do computadorExtração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forestinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis2017-05-29T11:44:39Z2017-05-29T11:44:39Z2016-12-08info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Monografias da UnBinstname:Universidade de Brasília (UnB)instacron:UNBORIGINAL2016_DanielDantasSantos_tcc.pdf2016_DanielDantasSantos_tcc.pdfapplication/pdf3276519http://bdm.unb.br/xmlui/bitstream/10483/17059/1/2016_DanielDantasSantos_tcc.pdf61ff9ffb2dc96079e37d224eefd60c12MD51CC-LICENSElicense_urllicense_urltext/plain49http://bdm.unb.br/xmlui/bitstream/10483/17059/2/license_url4afdbb8c545fd630ea7db775da747b2fMD52license_textlicense_textapplication/octet-stream0http://bdm.unb.br/xmlui/bitstream/10483/17059/3/license_textd41d8cd98f00b204e9800998ecf8427eMD53license_rdflicense_rdfapplication/octet-stream0http://bdm.unb.br/xmlui/bitstream/10483/17059/4/license_rdfd41d8cd98f00b204e9800998ecf8427eMD54LICENSElicense.txtlicense.txttext/plain1817http://bdm.unb.br/xmlui/bitstream/10483/17059/5/license.txt21554873e56ad8ddc69c092699b98f95MD5510483/170592017-05-29 08:44:39.235oai:bdm.unb.br:10483/17059w4kgbmVjZXNzw6FyaW8gY29uY29yZGFyIGNvbSBhIGxpY2Vuw6dhIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhLAphbnRlcyBxdWUgbyBkb2N1bWVudG8gcG9zc2EgYXBhcmVjZXIgbmEgQmlibGlvdGVjYSBEaWdpdGFsIGRhIFByb2R1w6fDo28gCkRpc2NlbnRlIGRhIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEuIFBvciBmYXZvciwgbGVpYSBhCmxpY2Vuw6dhIGF0ZW50YW1lbnRlLiBDYXNvIG5lY2Vzc2l0ZSBkZSBhbGd1bSBlc2NsYXJlY2ltZW50byBlbnRyZSBlbQpjb250YXRvIGF0cmF2w6lzIGRlOiBiZG1AYmNlLnVuYi5iciBvdSAzMTA3LTI2ODcuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQW8gYXNzaW5hciBlIGVudHJlZ2FyIGVzdGEgbGljZW7Dp2EsIG8vYSBTci4vU3JhLiAoYXV0b3Igb3UgZGV0ZW50b3IgZG9zCmRpcmVpdG9zIGRlIGF1dG9yKToKCmEpIENvbmNlZGUgw6AgVW5pdmVyc2lkYWRlIGRlIEJyYXPDrWxpYSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUKcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGNvbXVuaWNhciBlL291CmRpc3RyaWJ1aXIgbyBkb2N1bWVudG8gZW50cmVndWUgKGluY2x1aW5kbyBvIHJlc3Vtby9hYnN0cmFjdCkgZW0KZm9ybWF0byBkaWdpdGFsIG91IGltcHJlc3NvIGUgZW0gcXVhbHF1ZXIgbWVpby4KCmIpIERlY2xhcmEgcXVlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIHNldSB0cmFiYWxobyBvcmlnaW5hbCwgZSBxdWUKZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYQp0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50byBsaGUgw6kKcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBvdXRyYSBwZXNzb2Egb3UgZW50aWRhZGUuCgpjKSBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSBjb250w6ltIG1hdGVyaWFsIGRvIHF1YWwgbsOjbyBkZXTDqW0gb3MKZGlyZWl0b3MgZGUgYXV0b3IsIGRlY2xhcmEgcXVlIG9idGV2ZSBhdXRvcml6YcOnw6NvIGRvIGRldGVudG9yIGRvcwpkaXJlaXRvcyBkZSBhdXRvciBwYXJhIGNvbmNlZGVyIMOgIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEgb3MgZGlyZWl0b3MKcmVxdWVyaWRvcyBwb3IgZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBjdWpvcyBkaXJlaXRvcyBzw6NvIGRlCnRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIG91CmNvbnRlw7pkbyBkbyBkb2N1bWVudG8gZW50cmVndWUuCgpTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbwpwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUgbsOjbyBhIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEsIGRlY2xhcmEgcXVlCmN1bXByaXUgcXVhaXNxdWVyIG9icmlnYcOnw7VlcyBleGlnaWRhcyBwZWxvIHJlc3BlY3Rpdm8gY29udHJhdG8gb3UKYWNvcmRvLgoKQSBVbml2ZXJzaWRhZGUgZGUgQnJhc8OtbGlhIGlkZW50aWZpY2Fyw6EgY2xhcmFtZW50ZSBvKHMpIHNldSAocykgbm9tZSAocykKY29tbyBvIChzKSBhdXRvciAoZXMpIG91IGRldGVudG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50bwplbnRyZWd1ZSwgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRhcyBwZXJtaXRpZGFzIHBvcgplc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Monografiahttps://bdm.unb.br/PUBhttp://bdm.unb.br/oai/requestbdm@bce.unb.br||patricia@bce.unb.bropendoar:115712017-05-29T11:44:39Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB)false
dc.title.pt_BR.fl_str_mv Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest
title Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest
spellingShingle Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest
Santos, Daniel Dantas Nascimento dos
RNAs não-codificadores
Algoritmos
Aprendizado do computador
title_short Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest
title_full Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest
title_fullStr Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest
title_full_unstemmed Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest
title_sort Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest
author Santos, Daniel Dantas Nascimento dos
author_facet Santos, Daniel Dantas Nascimento dos
author_role author
dc.contributor.author.fl_str_mv Santos, Daniel Dantas Nascimento dos
dc.contributor.advisor1.fl_str_mv Walter, Maria Emilia Machado Telles
contributor_str_mv Walter, Maria Emilia Machado Telles
dc.subject.keyword.pt_BR.fl_str_mv RNAs não-codificadores
Algoritmos
Aprendizado do computador
topic RNAs não-codificadores
Algoritmos
Aprendizado do computador
description Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2016.
publishDate 2016
dc.date.submitted.none.fl_str_mv 2016-12-08
dc.date.accessioned.fl_str_mv 2017-05-29T11:44:39Z
dc.date.available.fl_str_mv 2017-05-29T11:44:39Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SANTOS, Daniel Dantas Nascimento dos. Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest. 2016. x, 105 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2016.
dc.identifier.uri.fl_str_mv http://bdm.unb.br/handle/10483/17059
identifier_str_mv SANTOS, Daniel Dantas Nascimento dos. Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest. 2016. x, 105 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2016.
url http://bdm.unb.br/handle/10483/17059
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Monografias da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Biblioteca Digital de Monografias da UnB
collection Biblioteca Digital de Monografias da UnB
bitstream.url.fl_str_mv http://bdm.unb.br/xmlui/bitstream/10483/17059/1/2016_DanielDantasSantos_tcc.pdf
http://bdm.unb.br/xmlui/bitstream/10483/17059/2/license_url
http://bdm.unb.br/xmlui/bitstream/10483/17059/3/license_text
http://bdm.unb.br/xmlui/bitstream/10483/17059/4/license_rdf
http://bdm.unb.br/xmlui/bitstream/10483/17059/5/license.txt
bitstream.checksum.fl_str_mv 61ff9ffb2dc96079e37d224eefd60c12
4afdbb8c545fd630ea7db775da747b2f
d41d8cd98f00b204e9800998ecf8427e
d41d8cd98f00b204e9800998ecf8427e
21554873e56ad8ddc69c092699b98f95
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv bdm@bce.unb.br||patricia@bce.unb.br
_version_ 1813907922274484224