Data warehouse enriquecido com métodos de aprendizado de máquina para a família Geminiviridae
Autor(a) principal: | |
---|---|
Data de Publicação: | 2016 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | LOCUS Repositório Institucional da UFV |
Texto Completo: | http://www.locus.ufv.br/handle/123456789/9483 |
Resumo: | Geminivírus infectam uma ampla faixa de plantas monocotiledôneas e dicotiledô- neas e causam expressivas perdas econômicas. A família Geminividae é uma das mais importantes famílias de vírus de plantas. Atualmente está composta por sete gêneros, é reconhecida pelo tipo de inseto vetor, hospedeiro, organização genômica e reconstrução filogenética. A amplificação por ciclo rolante permitiu que milhares de sequências completas e parciais fossem depositadas em bases de dados públi- cas. Entretanto, tais bases de dados são limitadas em ferramentas avançadas que permitam responder perguntas sofisticadas. Ao contrário de outros importantes patógenos virais, nenhum banco de dados para geminivírus que integre todas as informações relevantes foi ainda sugerido. Neste trabalho, um Data Warehouse (DW) designado geminivirus.com é proposto. Um DW amplamente enriquecido por abordagens de aprendizado de máquina que vise garantir confiabilidade e qua- lidade das sequências genômicas e seus metadados associados. As metodologias de extração, transformação dessas sequências e seus metadados foram implemen- tadas em um processo ETL (Extract, Transform and Load) específico para dados de geminivírus. Além disso, neste processo, o uso de algoritmos de aprendizado de máquina como Multilayer Perceptron (MLP), Máquina de Vetores de Suporte (SVM) e Random Forest são utilizados como classificadores taxonômicos in silico para classificar as sequências completas. Ademais, modelos de aprendizado de máquina foram propostos para classificação de genes. Os modelos para ambos os fins superam 98% de acurácia e precisão, utilizando apenas atributos extraídos da sequência genômica completa, sequência CDS (Coding DNA Sequence) e sequên- cia de aminoácidos. Também técnicas de Processamento de Linguagem Natural baseadas em teoria dos grafos foram propostas para extração de informação e co- nhecimento em resumos de artigos. Essa metodologia apresentou grande potencial para responder perguntas específicas. Explorando o grafo de texto buscando por palavras chaves que representam os mecanismos evolutivos, verificou-se que o tema recombinação é os mais estudado se comparado à mutação, migração, seleção na- tural e deriva genética. Tornando-se assim, uma técnica propicia para gerar novas hipóteses. Ao utilizar tal técnica, observou-se que ferramentas de predição de genes não foram mencionadas. Dessa oportunidade, sugerimos um método para predição e classificação de genes designado Fangorn Forest (F2). Além disso, como parte desse método sugerimos um algoritmo para predição de genes designado Millau Bridge (MB). Esse algoritmo testa todas as possíveis ORFs que uma sequência genômica completa pode codificar por meio de codons de iniciação e terminação. Além disso, identifica sítios de excisão de splicing. geminivrus.com tornou-se uma base de dados robusta capaz de proporcionar dados com boa qualidade, ferramen- tas avançadas enriquecidas por métodos de aprendizado de máquina que auxiliam pesquisadores em suas atividades de pesquisa e tomada de decisão. |
id |
UFV_7415a3b576c0dc917771bd757bfd9b7d |
---|---|
oai_identifier_str |
oai:locus.ufv.br:123456789/9483 |
network_acronym_str |
UFV |
network_name_str |
LOCUS Repositório Institucional da UFV |
repository_id_str |
2145 |
spelling |
Fontes, Elizabeth Pacheco BatistaSilva, José Cleydson Ferreira dahttp://lattes.cnpq.br/3083063529099935Cerqueira, Fabio Ribeiro2017-02-10T10:52:35Z2017-02-10T10:52:35Z2016-07-25SILVA, José Cleydson Ferreira da. Data warehouse enriquecido com métodos de aprendizado de máquina para a família Geminiviridae. 2016. 76f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2016.http://www.locus.ufv.br/handle/123456789/9483Geminivírus infectam uma ampla faixa de plantas monocotiledôneas e dicotiledô- neas e causam expressivas perdas econômicas. A família Geminividae é uma das mais importantes famílias de vírus de plantas. Atualmente está composta por sete gêneros, é reconhecida pelo tipo de inseto vetor, hospedeiro, organização genômica e reconstrução filogenética. A amplificação por ciclo rolante permitiu que milhares de sequências completas e parciais fossem depositadas em bases de dados públi- cas. Entretanto, tais bases de dados são limitadas em ferramentas avançadas que permitam responder perguntas sofisticadas. Ao contrário de outros importantes patógenos virais, nenhum banco de dados para geminivírus que integre todas as informações relevantes foi ainda sugerido. Neste trabalho, um Data Warehouse (DW) designado geminivirus.com é proposto. Um DW amplamente enriquecido por abordagens de aprendizado de máquina que vise garantir confiabilidade e qua- lidade das sequências genômicas e seus metadados associados. As metodologias de extração, transformação dessas sequências e seus metadados foram implemen- tadas em um processo ETL (Extract, Transform and Load) específico para dados de geminivírus. Além disso, neste processo, o uso de algoritmos de aprendizado de máquina como Multilayer Perceptron (MLP), Máquina de Vetores de Suporte (SVM) e Random Forest são utilizados como classificadores taxonômicos in silico para classificar as sequências completas. Ademais, modelos de aprendizado de máquina foram propostos para classificação de genes. Os modelos para ambos os fins superam 98% de acurácia e precisão, utilizando apenas atributos extraídos da sequência genômica completa, sequência CDS (Coding DNA Sequence) e sequên- cia de aminoácidos. Também técnicas de Processamento de Linguagem Natural baseadas em teoria dos grafos foram propostas para extração de informação e co- nhecimento em resumos de artigos. Essa metodologia apresentou grande potencial para responder perguntas específicas. Explorando o grafo de texto buscando por palavras chaves que representam os mecanismos evolutivos, verificou-se que o tema recombinação é os mais estudado se comparado à mutação, migração, seleção na- tural e deriva genética. Tornando-se assim, uma técnica propicia para gerar novas hipóteses. Ao utilizar tal técnica, observou-se que ferramentas de predição de genes não foram mencionadas. Dessa oportunidade, sugerimos um método para predição e classificação de genes designado Fangorn Forest (F2). Além disso, como parte desse método sugerimos um algoritmo para predição de genes designado Millau Bridge (MB). Esse algoritmo testa todas as possíveis ORFs que uma sequência genômica completa pode codificar por meio de codons de iniciação e terminação. Além disso, identifica sítios de excisão de splicing. geminivrus.com tornou-se uma base de dados robusta capaz de proporcionar dados com boa qualidade, ferramen- tas avançadas enriquecidas por métodos de aprendizado de máquina que auxiliam pesquisadores em suas atividades de pesquisa e tomada de decisão.Geminiviruses infect a wide range of monocot and dicot plants and cause sig- nificant economic losses. The Geminividae family is one of the most important plant virus families. Currently, it consists of seven genera and is recognized by the type of insect vector, host range, genome organization and phylogenetic re- construction. The rolling cycle amplification allowed thousands of complete and partial sequences to be made available in public databases. However, such databa- ses have limitations concerning advanced tools to answer sophisticated questions. Unlike other major viral pathogens, no database for geminiviruses that integrates all relevant information was suggested yet. In this work, a Data Warehouse (DW) designated geminivirus.org is proposed. It is a DW widely enriched by machine learning (ML) approaches designed to ensure reliability and quality of the genomic sequences and their associated metadata. The methods for extraction and trans- formation of these sequences and their metadata have been implemented using the ETL process (Extract, Transform and Load), specifically for geminivirus data. In addition, ML algorithms such as Multilayer Perceptron (MLP), Support Vector Machine (SVM), and Random Forest classifier are used as in silico taxonomic clas- sifiers to classify complete sequences. Furthermore, ML models are proposed for gene classification. All models exceed 98% accuracy and precision using only ex- tracted attributes of the complete genome sequence, Coding DNA Sequence (CDS) and protein sequence. Additionally, Natural Language Processing based on graph theory techniques have been proposed for extracting information and knowledge articles. This methodology presented great potential to answer specific questi- ons. While exploring the word graph by searching for keywords that represent evolutionary mechanisms, it was found that the subject of recombination is the most studied compared to the mutation, migration, natural selection and, genetic drift. The resulting method is demonstrated, thus, to be an interesting techni- que to generate new hypotheses. By using this technique, it was observed that gene prediction tools have not been mentioned. In this opportunity, we suggest a powerful method for prediction and classification of genes called Fangorn Forest (F2). Also as part of this method, we suggest a greedy algorithm for predicting genes designated Millau bridge (MB). This algorithm tests all possible ORFs that a complete genomic sequence can encode inspecting initiation and termination co- dons. Furthermore, it identifies splicing sites. geminivirus.org became a robust database capable of providing data with good quality, advanced tools enriched by machine learning methods that help researchers in their research activities and decision making.porUniversidade Federal de ViçosaAprendizado de máquinaBioinformáticaBiologia molecularGeminivírusCiência da ComputaçãoData warehouse enriquecido com métodos de aprendizado de máquina para a família GeminiviridaeData warehouse enriched with machine learning methods for the Geminiviridae familyinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal de ViçosaDepartamento de InformáticaMestre em Ciência da ComputaçãoViçosa - MG2016-07-25Mestradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf3471654https://locus.ufv.br//bitstream/123456789/9483/1/texto%20completo.pdf82ea26892b0d158adb1ef3c47fefcab1MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/9483/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52THUMBNAILtexto completo.pdf.jpgtexto completo.pdf.jpgIM Thumbnailimage/jpeg3760https://locus.ufv.br//bitstream/123456789/9483/3/texto%20completo.pdf.jpgc9a6f8dde5c9fe0299f4d382b90e3d5dMD53123456789/94832017-02-10 22:00:23.457oai:locus.ufv.br:123456789/9483Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452017-02-11T01:00:23LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false |
dc.title.pt-BR.fl_str_mv |
Data warehouse enriquecido com métodos de aprendizado de máquina para a família Geminiviridae |
dc.title.en.fl_str_mv |
Data warehouse enriched with machine learning methods for the Geminiviridae family |
title |
Data warehouse enriquecido com métodos de aprendizado de máquina para a família Geminiviridae |
spellingShingle |
Data warehouse enriquecido com métodos de aprendizado de máquina para a família Geminiviridae Silva, José Cleydson Ferreira da Aprendizado de máquina Bioinformática Biologia molecular Geminivírus Ciência da Computação |
title_short |
Data warehouse enriquecido com métodos de aprendizado de máquina para a família Geminiviridae |
title_full |
Data warehouse enriquecido com métodos de aprendizado de máquina para a família Geminiviridae |
title_fullStr |
Data warehouse enriquecido com métodos de aprendizado de máquina para a família Geminiviridae |
title_full_unstemmed |
Data warehouse enriquecido com métodos de aprendizado de máquina para a família Geminiviridae |
title_sort |
Data warehouse enriquecido com métodos de aprendizado de máquina para a família Geminiviridae |
author |
Silva, José Cleydson Ferreira da |
author_facet |
Silva, José Cleydson Ferreira da |
author_role |
author |
dc.contributor.authorLattes.pt-BR.fl_str_mv |
http://lattes.cnpq.br/3083063529099935 |
dc.contributor.none.fl_str_mv |
Fontes, Elizabeth Pacheco Batista |
dc.contributor.author.fl_str_mv |
Silva, José Cleydson Ferreira da |
dc.contributor.advisor1.fl_str_mv |
Cerqueira, Fabio Ribeiro |
contributor_str_mv |
Cerqueira, Fabio Ribeiro |
dc.subject.pt-BR.fl_str_mv |
Aprendizado de máquina Bioinformática Biologia molecular Geminivírus |
topic |
Aprendizado de máquina Bioinformática Biologia molecular Geminivírus Ciência da Computação |
dc.subject.cnpq.fl_str_mv |
Ciência da Computação |
description |
Geminivírus infectam uma ampla faixa de plantas monocotiledôneas e dicotiledô- neas e causam expressivas perdas econômicas. A família Geminividae é uma das mais importantes famílias de vírus de plantas. Atualmente está composta por sete gêneros, é reconhecida pelo tipo de inseto vetor, hospedeiro, organização genômica e reconstrução filogenética. A amplificação por ciclo rolante permitiu que milhares de sequências completas e parciais fossem depositadas em bases de dados públi- cas. Entretanto, tais bases de dados são limitadas em ferramentas avançadas que permitam responder perguntas sofisticadas. Ao contrário de outros importantes patógenos virais, nenhum banco de dados para geminivírus que integre todas as informações relevantes foi ainda sugerido. Neste trabalho, um Data Warehouse (DW) designado geminivirus.com é proposto. Um DW amplamente enriquecido por abordagens de aprendizado de máquina que vise garantir confiabilidade e qua- lidade das sequências genômicas e seus metadados associados. As metodologias de extração, transformação dessas sequências e seus metadados foram implemen- tadas em um processo ETL (Extract, Transform and Load) específico para dados de geminivírus. Além disso, neste processo, o uso de algoritmos de aprendizado de máquina como Multilayer Perceptron (MLP), Máquina de Vetores de Suporte (SVM) e Random Forest são utilizados como classificadores taxonômicos in silico para classificar as sequências completas. Ademais, modelos de aprendizado de máquina foram propostos para classificação de genes. Os modelos para ambos os fins superam 98% de acurácia e precisão, utilizando apenas atributos extraídos da sequência genômica completa, sequência CDS (Coding DNA Sequence) e sequên- cia de aminoácidos. Também técnicas de Processamento de Linguagem Natural baseadas em teoria dos grafos foram propostas para extração de informação e co- nhecimento em resumos de artigos. Essa metodologia apresentou grande potencial para responder perguntas específicas. Explorando o grafo de texto buscando por palavras chaves que representam os mecanismos evolutivos, verificou-se que o tema recombinação é os mais estudado se comparado à mutação, migração, seleção na- tural e deriva genética. Tornando-se assim, uma técnica propicia para gerar novas hipóteses. Ao utilizar tal técnica, observou-se que ferramentas de predição de genes não foram mencionadas. Dessa oportunidade, sugerimos um método para predição e classificação de genes designado Fangorn Forest (F2). Além disso, como parte desse método sugerimos um algoritmo para predição de genes designado Millau Bridge (MB). Esse algoritmo testa todas as possíveis ORFs que uma sequência genômica completa pode codificar por meio de codons de iniciação e terminação. Além disso, identifica sítios de excisão de splicing. geminivrus.com tornou-se uma base de dados robusta capaz de proporcionar dados com boa qualidade, ferramen- tas avançadas enriquecidas por métodos de aprendizado de máquina que auxiliam pesquisadores em suas atividades de pesquisa e tomada de decisão. |
publishDate |
2016 |
dc.date.issued.fl_str_mv |
2016-07-25 |
dc.date.accessioned.fl_str_mv |
2017-02-10T10:52:35Z |
dc.date.available.fl_str_mv |
2017-02-10T10:52:35Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
SILVA, José Cleydson Ferreira da. Data warehouse enriquecido com métodos de aprendizado de máquina para a família Geminiviridae. 2016. 76f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2016. |
dc.identifier.uri.fl_str_mv |
http://www.locus.ufv.br/handle/123456789/9483 |
identifier_str_mv |
SILVA, José Cleydson Ferreira da. Data warehouse enriquecido com métodos de aprendizado de máquina para a família Geminiviridae. 2016. 76f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2016. |
url |
http://www.locus.ufv.br/handle/123456789/9483 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.source.none.fl_str_mv |
reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV |
instname_str |
Universidade Federal de Viçosa (UFV) |
instacron_str |
UFV |
institution |
UFV |
reponame_str |
LOCUS Repositório Institucional da UFV |
collection |
LOCUS Repositório Institucional da UFV |
bitstream.url.fl_str_mv |
https://locus.ufv.br//bitstream/123456789/9483/1/texto%20completo.pdf https://locus.ufv.br//bitstream/123456789/9483/2/license.txt https://locus.ufv.br//bitstream/123456789/9483/3/texto%20completo.pdf.jpg |
bitstream.checksum.fl_str_mv |
82ea26892b0d158adb1ef3c47fefcab1 8a4605be74aa9ea9d79846c1fba20a33 c9a6f8dde5c9fe0299f4d382b90e3d5d |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV) |
repository.mail.fl_str_mv |
fabiojreis@ufv.br |
_version_ |
1801212900420878336 |