Predição de regiões promotoras em Bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporte

Detalhes bibliográficos
Autor(a) principal: Coelho, Rafael Vieira
Data de Publicação: 2017
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UCS
Texto Completo: https://repositorio.ucs.br/handle/11338/3795
Resumo: O processo de transcrição diz respeito à leitura da informação contida no DNA para geração do RNA mensageiro correspondente. Para iniciar o processo de transcrição de um determinado gene, a enzima RNA polimerase necessita reconhecer a região promotora, atuando assim na regulação da expressão dos genes. A literatura propõe diversos métodos computacionais para a predição de sequências promotoras, mas a maioria dos trabalhos concentra-se em bactérias Gram-negativas. O objetivo deste trabalho é predizer promotores em regiões intergênicas da bactéria Bacillus subtilis (Gram-positiva) através da aplicação de técnicas de aprendizado de máquina: Redes Neurais Artificias (RN) e Máquinas de Vetor de Suporte (SVM). O treinamento das RN foi realizado através do algoritmo Multilayer Perceptron (MLP) que se baseia na regra de aprendizagem por correção de erro (backpropagation). Já para SVM, destaca-se os kernels (faz o mapeamento no espaço de características para a identificação dos vetores de suporte ideais) Radial Basis Function (RBF) que utiliza uma função gaussiana; SIGMOID que utiliza uma função de tangente hiperbólica; e Nu-Support Vector Classification (Nu-SVC) que limita o custo de penalização entre 0 e 1. O primeiro passo do trabalho foi a coleta do genoma e dos promotores reconhecidos pelos fatores sigma da bactéria Bacillus subtilis a partir dos dadoscontidos em bancos de dados públicos. O processamento dos dados biológicos obtidos da bactéria Bacillus subtilis gerou 767 regiões promotoras, sendo a maioria encontrada a partir do fator Sigma SigA. Estes dados foram processados e utilizados como entrada na aplicação das técnicas de aprendizado de máquina RN e SVM. Desta forma, foi possível comparar o desempenho das duas soluções para o problema em questão. Em ambas as soluções foram usados os mesmos dados de entrada e validação cruzada (k-cross validation) de 5-fold. Os resultados são condizentes e competitivos com os encontrados na literatura, obtendo 93.20% e 95.63% de acurácia em sua predição com o SVM (combinando os kernels SIGMOID e RBF com o algoritmo Nu-SVC) e obtendo 98.57% e 97.69% de acurácia em sua predição com RN (MLP com 5 e 7 neurônios na camada oculta e 1 neurônio na camada de saída). A partir dos resultados obtidos, é possível afirmar que a predição, reconhecimento e caracterização de regiões promotoras de Bacillus subtilis pode ser realizado com sucesso tanto usando RN quanto SVM, embora RN tenha obtido melhor desempenho.
id UCS_fff12e8fd89e5ea6a9f90a75f6117d12
oai_identifier_str oai:repositorio.ucs.br:11338/3795
network_acronym_str UCS
network_name_str Repositório Institucional da UCS
repository_id_str
spelling Coelho, Rafael VieiraLemke, NeyDorn, MarcioNotari, Daniel LuísDelamare, Ana Paula Longaray2018-06-06T12:45:00Z2018-06-06T12:45:00Z2018-06-072017-04-13https://repositorio.ucs.br/handle/11338/3795O processo de transcrição diz respeito à leitura da informação contida no DNA para geração do RNA mensageiro correspondente. Para iniciar o processo de transcrição de um determinado gene, a enzima RNA polimerase necessita reconhecer a região promotora, atuando assim na regulação da expressão dos genes. A literatura propõe diversos métodos computacionais para a predição de sequências promotoras, mas a maioria dos trabalhos concentra-se em bactérias Gram-negativas. O objetivo deste trabalho é predizer promotores em regiões intergênicas da bactéria Bacillus subtilis (Gram-positiva) através da aplicação de técnicas de aprendizado de máquina: Redes Neurais Artificias (RN) e Máquinas de Vetor de Suporte (SVM). O treinamento das RN foi realizado através do algoritmo Multilayer Perceptron (MLP) que se baseia na regra de aprendizagem por correção de erro (backpropagation). Já para SVM, destaca-se os kernels (faz o mapeamento no espaço de características para a identificação dos vetores de suporte ideais) Radial Basis Function (RBF) que utiliza uma função gaussiana; SIGMOID que utiliza uma função de tangente hiperbólica; e Nu-Support Vector Classification (Nu-SVC) que limita o custo de penalização entre 0 e 1. O primeiro passo do trabalho foi a coleta do genoma e dos promotores reconhecidos pelos fatores sigma da bactéria Bacillus subtilis a partir dos dadoscontidos em bancos de dados públicos. O processamento dos dados biológicos obtidos da bactéria Bacillus subtilis gerou 767 regiões promotoras, sendo a maioria encontrada a partir do fator Sigma SigA. Estes dados foram processados e utilizados como entrada na aplicação das técnicas de aprendizado de máquina RN e SVM. Desta forma, foi possível comparar o desempenho das duas soluções para o problema em questão. Em ambas as soluções foram usados os mesmos dados de entrada e validação cruzada (k-cross validation) de 5-fold. Os resultados são condizentes e competitivos com os encontrados na literatura, obtendo 93.20% e 95.63% de acurácia em sua predição com o SVM (combinando os kernels SIGMOID e RBF com o algoritmo Nu-SVC) e obtendo 98.57% e 97.69% de acurácia em sua predição com RN (MLP com 5 e 7 neurônios na camada oculta e 1 neurônio na camada de saída). A partir dos resultados obtidos, é possível afirmar que a predição, reconhecimento e caracterização de regiões promotoras de Bacillus subtilis pode ser realizado com sucesso tanto usando RN quanto SVM, embora RN tenha obtido melhor desempenho.The transcription process concerns reading the information contained in DNA to generate the corresponding messenger RNA. To initiate the transcription process of a given gene, RNA polymerase enzyme needs to recognize the promoter region, thereby regulating gene expression. Literature proposes several computational methods to predict promoter sequences, but most of them is focused on Gramnegative bacteria. Therefore, the objective of this work is to predict promoters in intergenic regions of the Bacillus subtilis bacterium (Gram-positive) through the application of machine learning techniques: Artificial Neural Networks (RN) and Support Vector Machines (SVM). The training of the RN was performed through the Multilayer Perceptron (MLP) algorithm that is based on the error correction learning rule (backpropagation). For SVM, the kernels (maps the characteristics space to identify ideal support vectors) that stands out are Radial Basis Function (RBF) that uses a Gaussian function; SIGMOID that uses a hyperbolic tangent function; and Nu- Support Vector Classification (Nu-SVC) that limits the penalty cost between 0 and 1. The first step was to obtain the genome and the promoters recognized by the Sigma factors of Bacillus subtilis from data in public data bases. Biological data gathered from Bacillus subtilis generated 767 promoter regions, being the majority found by Sigma SigA factor. These data were processed and used as input in RN and SVM machine learning techniques. Hence, it was possible to compare the efficiency of the two solutions. In both solutions, the same input data and 5-fold cross-validation were used. We obtained 93.20% and 95.63% accuracy in the SVM application (combining the SIGMOID and RBF kernels with the Nu-SVC algorithm). With RN (MLP with 5 and 7 neurons in the hidden layer and 1 neuron in the output layer), the best results were 98.57% and 97.69% accuracy. Both results are consistent and competitive when compared to those in literature. In addition, both solutions proved the reliability of the obtained data. Finally, it is possible to state that the prediction of Bacillus subtilis promoter regions can be successfully performed both using RN and SVM, although RN has obtained better performance.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorBacillus subtilisBiotecnologiaRedes neurais (Computação)Bacillus subtilisBiotechnologyNeural networks (Computer science)Predição de regiões promotoras em Bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporteinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisporreponame:Repositório Institucional da UCSinstname:Universidade de Caxias do Sul (UCS)instacron:UCSinfo:eu-repo/semantics/openAccessUniversidade de Caxias do Sulhttp://lattes.cnpq.br/7847497772533850COELHO, R. V.Programa de Pós-Graduação em BiotecnologiaSilva, Scheila de Avila eTEXTTese Rafael Vieira Coelho.pdf.txtTese Rafael Vieira Coelho.pdf.txtExtracted texttext/plain179641https://repositorio.ucs.br/xmlui/bitstream/11338/3795/3/Tese%20Rafael%20Vieira%20Coelho.pdf.txt503802a483e6ec0dfa69ee1fd2e75990MD53THUMBNAILTese Rafael Vieira Coelho.pdf.jpgTese Rafael Vieira Coelho.pdf.jpgGenerated Thumbnailimage/jpeg1336https://repositorio.ucs.br/xmlui/bitstream/11338/3795/4/Tese%20Rafael%20Vieira%20Coelho.pdf.jpg3551cc33f2cab08bdb318af358ce07c3MD54ORIGINALTese Rafael Vieira Coelho.pdfTese Rafael Vieira Coelho.pdfapplication/pdf4978822https://repositorio.ucs.br/xmlui/bitstream/11338/3795/1/Tese%20Rafael%20Vieira%20Coelho.pdfe690deaad9de5768202ab05d73ece302MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.ucs.br/xmlui/bitstream/11338/3795/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD5211338/37952018-10-03 16:26:28.547oai:repositorio.ucs.br:11338/3795Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório de Publicaçõeshttp://repositorio.ucs.br/oai/requestopendoar:2018-10-03T16:26:28Repositório Institucional da UCS - Universidade de Caxias do Sul (UCS)false
dc.title.pt_BR.fl_str_mv Predição de regiões promotoras em Bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporte
title Predição de regiões promotoras em Bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporte
spellingShingle Predição de regiões promotoras em Bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporte
Coelho, Rafael Vieira
Bacillus subtilis
Biotecnologia
Redes neurais (Computação)
Bacillus subtilis
Biotechnology
Neural networks (Computer science)
title_short Predição de regiões promotoras em Bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporte
title_full Predição de regiões promotoras em Bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporte
title_fullStr Predição de regiões promotoras em Bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporte
title_full_unstemmed Predição de regiões promotoras em Bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporte
title_sort Predição de regiões promotoras em Bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporte
author Coelho, Rafael Vieira
author_facet Coelho, Rafael Vieira
author_role author
dc.contributor.other.none.fl_str_mv Lemke, Ney
Dorn, Marcio
Notari, Daniel Luís
dc.contributor.author.fl_str_mv Coelho, Rafael Vieira
dc.contributor.advisor1.fl_str_mv Delamare, Ana Paula Longaray
contributor_str_mv Delamare, Ana Paula Longaray
dc.subject.por.fl_str_mv Bacillus subtilis
Biotecnologia
Redes neurais (Computação)
Bacillus subtilis
Biotechnology
Neural networks (Computer science)
topic Bacillus subtilis
Biotecnologia
Redes neurais (Computação)
Bacillus subtilis
Biotechnology
Neural networks (Computer science)
description O processo de transcrição diz respeito à leitura da informação contida no DNA para geração do RNA mensageiro correspondente. Para iniciar o processo de transcrição de um determinado gene, a enzima RNA polimerase necessita reconhecer a região promotora, atuando assim na regulação da expressão dos genes. A literatura propõe diversos métodos computacionais para a predição de sequências promotoras, mas a maioria dos trabalhos concentra-se em bactérias Gram-negativas. O objetivo deste trabalho é predizer promotores em regiões intergênicas da bactéria Bacillus subtilis (Gram-positiva) através da aplicação de técnicas de aprendizado de máquina: Redes Neurais Artificias (RN) e Máquinas de Vetor de Suporte (SVM). O treinamento das RN foi realizado através do algoritmo Multilayer Perceptron (MLP) que se baseia na regra de aprendizagem por correção de erro (backpropagation). Já para SVM, destaca-se os kernels (faz o mapeamento no espaço de características para a identificação dos vetores de suporte ideais) Radial Basis Function (RBF) que utiliza uma função gaussiana; SIGMOID que utiliza uma função de tangente hiperbólica; e Nu-Support Vector Classification (Nu-SVC) que limita o custo de penalização entre 0 e 1. O primeiro passo do trabalho foi a coleta do genoma e dos promotores reconhecidos pelos fatores sigma da bactéria Bacillus subtilis a partir dos dadoscontidos em bancos de dados públicos. O processamento dos dados biológicos obtidos da bactéria Bacillus subtilis gerou 767 regiões promotoras, sendo a maioria encontrada a partir do fator Sigma SigA. Estes dados foram processados e utilizados como entrada na aplicação das técnicas de aprendizado de máquina RN e SVM. Desta forma, foi possível comparar o desempenho das duas soluções para o problema em questão. Em ambas as soluções foram usados os mesmos dados de entrada e validação cruzada (k-cross validation) de 5-fold. Os resultados são condizentes e competitivos com os encontrados na literatura, obtendo 93.20% e 95.63% de acurácia em sua predição com o SVM (combinando os kernels SIGMOID e RBF com o algoritmo Nu-SVC) e obtendo 98.57% e 97.69% de acurácia em sua predição com RN (MLP com 5 e 7 neurônios na camada oculta e 1 neurônio na camada de saída). A partir dos resultados obtidos, é possível afirmar que a predição, reconhecimento e caracterização de regiões promotoras de Bacillus subtilis pode ser realizado com sucesso tanto usando RN quanto SVM, embora RN tenha obtido melhor desempenho.
publishDate 2017
dc.date.submitted.none.fl_str_mv 2017-04-13
dc.date.accessioned.fl_str_mv 2018-06-06T12:45:00Z
dc.date.available.fl_str_mv 2018-06-06T12:45:00Z
dc.date.issued.fl_str_mv 2018-06-07
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ucs.br/handle/11338/3795
url https://repositorio.ucs.br/handle/11338/3795
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da UCS
instname:Universidade de Caxias do Sul (UCS)
instacron:UCS
instname_str Universidade de Caxias do Sul (UCS)
instacron_str UCS
institution UCS
reponame_str Repositório Institucional da UCS
collection Repositório Institucional da UCS
bitstream.url.fl_str_mv https://repositorio.ucs.br/xmlui/bitstream/11338/3795/3/Tese%20Rafael%20Vieira%20Coelho.pdf.txt
https://repositorio.ucs.br/xmlui/bitstream/11338/3795/4/Tese%20Rafael%20Vieira%20Coelho.pdf.jpg
https://repositorio.ucs.br/xmlui/bitstream/11338/3795/1/Tese%20Rafael%20Vieira%20Coelho.pdf
https://repositorio.ucs.br/xmlui/bitstream/11338/3795/2/license.txt
bitstream.checksum.fl_str_mv 503802a483e6ec0dfa69ee1fd2e75990
3551cc33f2cab08bdb318af358ce07c3
e690deaad9de5768202ab05d73ece302
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UCS - Universidade de Caxias do Sul (UCS)
repository.mail.fl_str_mv
_version_ 1798308906574807040