Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs
Autor(a) principal: | |
---|---|
Data de Publicação: | 2015 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | LOCUS Repositório Institucional da UFV |
Texto Completo: | http://www.locus.ufv.br/handle/123456789/7585 |
Resumo: | Os microRNAs (miRNAs) são importantes reguladores da expressão gênica em plantas e animais. Assim, miRNAs estão envolvidos na maioria dos processos biológicos, tor- nando o estudo dessas moléculas um dos temas mais relevantes da biologia molecular atualmente. Uma estratégia para encontrar novos miRNAs é procurar seus precursores (pre-miRNAs), que são estruturas ligeiramente maiores (70-120 nt) e têm uma estru- tura secundária na forma de hairpin (grampo de cabelo). No entanto, caracterizar pre-miRNAs in vivo ainda é uma tarefa complexa. Como consequência disto, méto- dos in silico foram desenvolvidos para prever a localização genômica de pre-miRNAs. No entanto, as ferramentas computacionais atuais têm problemas de seletividade, isto é, uma grande quantidade de falsos positivos é reportada. Este trabalho apresenta uma extensão do método desenvolvido por Tempel e Tahi, 2012, com o objetivo de melhorar a seletividade através da técnica de aprendizagem de máquina denominada Random Forest, combinada com o método SMOTE, que lida com conjuntos de dados desbalanceados. Comparando o método proposto com outras importantes abordagens na literatura, mostramos que os procedimentos descritos neste trabalho puderam me- lhorar substancialmente a seletividade, sem comprometer a sensibilidade. Para três conjuntos de dados utilizados nos experimentos realizados, a abordagem proposta al- cançou pelo menos 97 % de sensibilidade e proporcionou um aumento de duas, vinte e seis vezes na seletividade, respectivamente, em comparação com os resultados de ferramentas computacionais atuais. |
id |
UFV_b9f441bbaf2a66a7d5f759f46842ca41 |
---|---|
oai_identifier_str |
oai:locus.ufv.br:123456789/7585 |
network_acronym_str |
UFV |
network_name_str |
LOCUS Repositório Institucional da UFV |
repository_id_str |
2145 |
spelling |
Oliveira, Alcione de PaivaMarques, Yuri Bentohttp://lattes.cnpq.br/1307057738481189Cerqueira, Fábio Ribeiro2016-04-29T11:11:26Z2016-04-29T11:11:26Z2015-12-08MARQUES, Yuri Bento. Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs. 2015. 72 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2015.http://www.locus.ufv.br/handle/123456789/7585Os microRNAs (miRNAs) são importantes reguladores da expressão gênica em plantas e animais. Assim, miRNAs estão envolvidos na maioria dos processos biológicos, tor- nando o estudo dessas moléculas um dos temas mais relevantes da biologia molecular atualmente. Uma estratégia para encontrar novos miRNAs é procurar seus precursores (pre-miRNAs), que são estruturas ligeiramente maiores (70-120 nt) e têm uma estru- tura secundária na forma de hairpin (grampo de cabelo). No entanto, caracterizar pre-miRNAs in vivo ainda é uma tarefa complexa. Como consequência disto, méto- dos in silico foram desenvolvidos para prever a localização genômica de pre-miRNAs. No entanto, as ferramentas computacionais atuais têm problemas de seletividade, isto é, uma grande quantidade de falsos positivos é reportada. Este trabalho apresenta uma extensão do método desenvolvido por Tempel e Tahi, 2012, com o objetivo de melhorar a seletividade através da técnica de aprendizagem de máquina denominada Random Forest, combinada com o método SMOTE, que lida com conjuntos de dados desbalanceados. Comparando o método proposto com outras importantes abordagens na literatura, mostramos que os procedimentos descritos neste trabalho puderam me- lhorar substancialmente a seletividade, sem comprometer a sensibilidade. Para três conjuntos de dados utilizados nos experimentos realizados, a abordagem proposta al- cançou pelo menos 97 % de sensibilidade e proporcionou um aumento de duas, vinte e seis vezes na seletividade, respectivamente, em comparação com os resultados de ferramentas computacionais atuais.MicroRNAs (miRNAs) are key gene expression regulators in plants and animals. Thus, miRNAs are involved in the majority of biological process, making the study of these molecules one of the most relevant topics of molecular biology nowadays. A strategy to find new miRNAs is to search for its precursors (pre-miRNAs), which are slightly lar- ger structures (70-120 nt) and have a hairpin structural form. However, characterizing pre-miRNAs in vivo is still a complex task. As a consequence, in silico methods were developed to predict the genomic location of pre-miRNAs. Nevertheless, the current computational tools have problems of selectivity, i.e., a higher number of false positives is reported. This work presents an extension of the method developed by Tempel and Tahi, 2012, with the aim of improving selectivity through machine learning techniques, namely, random forests combined with the SMOTE method that copes with imbalance datasets. Comparing our method with other important approaches in the literature, we have shown that our procedures could substantially improve selectivity without com- promising sensibility. For three datasets used in our experiments, our method achieved at least 97% of sensitivity and could deliver a two-fold, 20-fold, and 6-fold increase in selectivity, respectively, compared with the best results of current computational tools.porUniversidade Federal de ViçosaAprendizado do computadorBioinformáticaBiologia molecularÁcido ribonucleicoCiência da ComputaçãoMirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAsMirnacle: machine learning with SMOTE and random forest for improving se- lectivity in pre-miRNA ab initio predictioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal de ViçosaDepartamento de InformáticaMestre em Ciência da ComputaçãoViçosa - MG2015-12-08Mestradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf3023292https://locus.ufv.br//bitstream/123456789/7585/1/texto%20completo.pdf6695727050e9686d3b65e792748935d9MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/7585/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52THUMBNAILtexto completo.pdf.jpgtexto completo.pdf.jpgIM Thumbnailimage/jpeg3829https://locus.ufv.br//bitstream/123456789/7585/3/texto%20completo.pdf.jpg647ea7e918cf1d5330abe8ba66e56cb4MD53TEXTtexto completo.pdf.txttexto completo.pdf.txtExtracted texttext/plain161349https://locus.ufv.br//bitstream/123456789/7585/4/texto%20completo.pdf.txt1a920ea1f72d22e0b1c16127460d3cfbMD54123456789/75852016-05-02 05:09:52.063oai:locus.ufv.br:123456789/7585Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452016-05-02T08:09:52LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false |
dc.title.pt-BR.fl_str_mv |
Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs |
dc.title.en.fl_str_mv |
Mirnacle: machine learning with SMOTE and random forest for improving se- lectivity in pre-miRNA ab initio prediction |
title |
Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs |
spellingShingle |
Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs Marques, Yuri Bento Aprendizado do computador Bioinformática Biologia molecular Ácido ribonucleico Ciência da Computação |
title_short |
Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs |
title_full |
Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs |
title_fullStr |
Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs |
title_full_unstemmed |
Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs |
title_sort |
Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs |
author |
Marques, Yuri Bento |
author_facet |
Marques, Yuri Bento |
author_role |
author |
dc.contributor.authorLattes.pt-BR.fl_str_mv |
http://lattes.cnpq.br/1307057738481189 |
dc.contributor.none.fl_str_mv |
Oliveira, Alcione de Paiva |
dc.contributor.author.fl_str_mv |
Marques, Yuri Bento |
dc.contributor.advisor1.fl_str_mv |
Cerqueira, Fábio Ribeiro |
contributor_str_mv |
Cerqueira, Fábio Ribeiro |
dc.subject.pt-BR.fl_str_mv |
Aprendizado do computador Bioinformática Biologia molecular Ácido ribonucleico |
topic |
Aprendizado do computador Bioinformática Biologia molecular Ácido ribonucleico Ciência da Computação |
dc.subject.cnpq.fl_str_mv |
Ciência da Computação |
description |
Os microRNAs (miRNAs) são importantes reguladores da expressão gênica em plantas e animais. Assim, miRNAs estão envolvidos na maioria dos processos biológicos, tor- nando o estudo dessas moléculas um dos temas mais relevantes da biologia molecular atualmente. Uma estratégia para encontrar novos miRNAs é procurar seus precursores (pre-miRNAs), que são estruturas ligeiramente maiores (70-120 nt) e têm uma estru- tura secundária na forma de hairpin (grampo de cabelo). No entanto, caracterizar pre-miRNAs in vivo ainda é uma tarefa complexa. Como consequência disto, méto- dos in silico foram desenvolvidos para prever a localização genômica de pre-miRNAs. No entanto, as ferramentas computacionais atuais têm problemas de seletividade, isto é, uma grande quantidade de falsos positivos é reportada. Este trabalho apresenta uma extensão do método desenvolvido por Tempel e Tahi, 2012, com o objetivo de melhorar a seletividade através da técnica de aprendizagem de máquina denominada Random Forest, combinada com o método SMOTE, que lida com conjuntos de dados desbalanceados. Comparando o método proposto com outras importantes abordagens na literatura, mostramos que os procedimentos descritos neste trabalho puderam me- lhorar substancialmente a seletividade, sem comprometer a sensibilidade. Para três conjuntos de dados utilizados nos experimentos realizados, a abordagem proposta al- cançou pelo menos 97 % de sensibilidade e proporcionou um aumento de duas, vinte e seis vezes na seletividade, respectivamente, em comparação com os resultados de ferramentas computacionais atuais. |
publishDate |
2015 |
dc.date.issued.fl_str_mv |
2015-12-08 |
dc.date.accessioned.fl_str_mv |
2016-04-29T11:11:26Z |
dc.date.available.fl_str_mv |
2016-04-29T11:11:26Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
MARQUES, Yuri Bento. Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs. 2015. 72 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2015. |
dc.identifier.uri.fl_str_mv |
http://www.locus.ufv.br/handle/123456789/7585 |
identifier_str_mv |
MARQUES, Yuri Bento. Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs. 2015. 72 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2015. |
url |
http://www.locus.ufv.br/handle/123456789/7585 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.source.none.fl_str_mv |
reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV |
instname_str |
Universidade Federal de Viçosa (UFV) |
instacron_str |
UFV |
institution |
UFV |
reponame_str |
LOCUS Repositório Institucional da UFV |
collection |
LOCUS Repositório Institucional da UFV |
bitstream.url.fl_str_mv |
https://locus.ufv.br//bitstream/123456789/7585/1/texto%20completo.pdf https://locus.ufv.br//bitstream/123456789/7585/2/license.txt https://locus.ufv.br//bitstream/123456789/7585/3/texto%20completo.pdf.jpg https://locus.ufv.br//bitstream/123456789/7585/4/texto%20completo.pdf.txt |
bitstream.checksum.fl_str_mv |
6695727050e9686d3b65e792748935d9 8a4605be74aa9ea9d79846c1fba20a33 647ea7e918cf1d5330abe8ba66e56cb4 1a920ea1f72d22e0b1c16127460d3cfb |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV) |
repository.mail.fl_str_mv |
fabiojreis@ufv.br |
_version_ |
1801212867476717568 |