Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas

Detalhes bibliográficos
Autor(a) principal: Conque, Bruno Mendes Moro
Data de Publicação: 2014
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/28364
Resumo: No âmbito da bioinformática, o reconhecimento de padrões dentro de sequências genômicas pode ser utilizado para classificar regiões (gênica, promotora, não-codificante) de um DNA. Neste sentido, caso uma boa classificação ocorra um modelo pode ser gerado para inferir sequências desconhecidas. Frente a essa perspectiva, medidas que representam particularidades dentro dessas sequências devem ser identificadas. Este trabalho propõe duas metodologias para caracterizar as sequências genômicas baseadas na teoria das redes complexas e teoria da informação. A teoria da informação lida com a frequência das ocorrências de nucleotídeos, dinucleotídeos e trinucleotídeos dentro de uma sequência para calcular entropia, soma de entropia e valor máximo da entropia para compor as características da mesma. As redes complexas por sua vez, retratam as sequências como uma rede através da ocorrência de encontro entre os nucleotídeos, dinucleotídeos e trinucleotídeos dentro da sequência. As medidas das metodologias são utilizadas na classificação com métodos classificadores como SVM, MultiLayerPerceptron, J48, IBK, NaiveBayes e RandomForest, para os quais foram obtidos resultados similares apresentando pouca diferença a favor das redes complexas, sendo que o RandomForest apresentou os melhores resultados com aproximadamente 86% de acurácia, seguido do J48 com 84% e do MultiLayerPerceptron com 82%. Os resultados obtidos indicam que através dessa abordagem de extração de características é possível alcançar bons níveis de classificação considerando a simplicidade dos métodos uma vez que são utilizadas somente as sequências genômicas sem nenhum outro conhecimento acerca delas.
id UTFPR-12_4b3110bf45440f7e1069305ada24055d
oai_identifier_str oai:repositorio.utfpr.edu.br:1/28364
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling 2022-05-10T00:15:22Z2022-05-10T00:15:22Z2014CONQUE, Bruno Mendes Moro. Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas. 2014. Trabalho de Conclusão de Curso (Tecnologia em Análise e Desenvolvimento de Sistemas) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2014.http://repositorio.utfpr.edu.br/jspui/handle/1/28364No âmbito da bioinformática, o reconhecimento de padrões dentro de sequências genômicas pode ser utilizado para classificar regiões (gênica, promotora, não-codificante) de um DNA. Neste sentido, caso uma boa classificação ocorra um modelo pode ser gerado para inferir sequências desconhecidas. Frente a essa perspectiva, medidas que representam particularidades dentro dessas sequências devem ser identificadas. Este trabalho propõe duas metodologias para caracterizar as sequências genômicas baseadas na teoria das redes complexas e teoria da informação. A teoria da informação lida com a frequência das ocorrências de nucleotídeos, dinucleotídeos e trinucleotídeos dentro de uma sequência para calcular entropia, soma de entropia e valor máximo da entropia para compor as características da mesma. As redes complexas por sua vez, retratam as sequências como uma rede através da ocorrência de encontro entre os nucleotídeos, dinucleotídeos e trinucleotídeos dentro da sequência. As medidas das metodologias são utilizadas na classificação com métodos classificadores como SVM, MultiLayerPerceptron, J48, IBK, NaiveBayes e RandomForest, para os quais foram obtidos resultados similares apresentando pouca diferença a favor das redes complexas, sendo que o RandomForest apresentou os melhores resultados com aproximadamente 86% de acurácia, seguido do J48 com 84% e do MultiLayerPerceptron com 82%. Os resultados obtidos indicam que através dessa abordagem de extração de características é possível alcançar bons níveis de classificação considerando a simplicidade dos métodos uma vez que são utilizadas somente as sequências genômicas sem nenhum outro conhecimento acerca delas.Within the scope of bioinformatics, pattern recognition in genomic sequences can be used to classify regions (gene, promoter, non-coding) of a DNA. In this sense, if a model a good classification occurs can be generated to infer unknown sequences. Faced with this prospect, measures that represent characteristics within these sequences must be identified. This paper proposes two methods to characterize the genomic sequences based on the theory of complex networks and information theory. Information theory deals with the frequency of occurrences of nucleotide, dinucleotide and trinucleotide within a sequence to calculate entropy, sum entropy and maximum entropy to compose the same characteristics. Complex networks in turn retrate the sequences as a network through the occurring of the nucleotides, dinucleotides and trinucleotides within the same. Measures of methodologies are used in the classification methods such as SVM classifiers, MultiLayerPerceptron, J48, IBK, and NaiveBayes RandomForest, where similar results were obtained among the methods, showing little difference in favor of the complex networks, wherein RandomForest showed the best results with approximately 86 % accuracy, followed by J48 with 84 % and MultiLayerPerceptron with 82 %. The results indicate that by such feature extraction approach can achieve good classification levels considering the simplicity of the methods used since they are only genomic sequences without any further knowledge about them.porUniversidade Tecnológica Federal do ParanáCornelio ProcopioTecnologia em Análise e Desenvolvimento de SistemasUTFPRBrasilCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOBioinformáticaGenômicaClassificaçãoBioinformaticsGenomicsClassificationExtração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisCornélio ProcópioLopes, Fabrício MartinsKashiwabara, André YoshiakiLopes, Fabrício MartinsPaschoal , Alexandre RossiKashiwabara, André YoshiakiConque, Bruno Mendes Moroinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRLICENSElicense.txtlicense.txttext/plain; charset=utf-81290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28364/2/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD52ORIGINALCP_COADS_2014_2_03.pdfCP_COADS_2014_2_03.pdfapplication/pdf1948872http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28364/1/CP_COADS_2014_2_03.pdf7d0e0d2a8f796874082af50284f16717MD51TEXTCP_COADS_2014_2_03.pdf.txtCP_COADS_2014_2_03.pdf.txtExtracted texttext/plain73784http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28364/3/CP_COADS_2014_2_03.pdf.txt1a442edea95f4fbb0e1823dab2eeb9b4MD53THUMBNAILCP_COADS_2014_2_03.pdf.jpgCP_COADS_2014_2_03.pdf.jpgGenerated Thumbnailimage/jpeg1349http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28364/4/CP_COADS_2014_2_03.pdf.jpg00f164180ff6595f6819bb9a5cc0bca5MD541/283642022-05-10 03:08:05.456oai:repositorio.utfpr.edu.br:1/28364TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2022-05-10T06:08:05Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas
title Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas
spellingShingle Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas
Conque, Bruno Mendes Moro
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Bioinformática
Genômica
Classificação
Bioinformatics
Genomics
Classification
title_short Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas
title_full Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas
title_fullStr Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas
title_full_unstemmed Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas
title_sort Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas
author Conque, Bruno Mendes Moro
author_facet Conque, Bruno Mendes Moro
author_role author
dc.contributor.advisor1.fl_str_mv Lopes, Fabrício Martins
dc.contributor.advisor-co1.fl_str_mv Kashiwabara, André Yoshiaki
dc.contributor.referee1.fl_str_mv Lopes, Fabrício Martins
dc.contributor.referee2.fl_str_mv Paschoal , Alexandre Rossi
dc.contributor.referee3.fl_str_mv Kashiwabara, André Yoshiaki
dc.contributor.author.fl_str_mv Conque, Bruno Mendes Moro
contributor_str_mv Lopes, Fabrício Martins
Kashiwabara, André Yoshiaki
Lopes, Fabrício Martins
Paschoal , Alexandre Rossi
Kashiwabara, André Yoshiaki
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Bioinformática
Genômica
Classificação
Bioinformatics
Genomics
Classification
dc.subject.por.fl_str_mv Bioinformática
Genômica
Classificação
Bioinformatics
Genomics
Classification
description No âmbito da bioinformática, o reconhecimento de padrões dentro de sequências genômicas pode ser utilizado para classificar regiões (gênica, promotora, não-codificante) de um DNA. Neste sentido, caso uma boa classificação ocorra um modelo pode ser gerado para inferir sequências desconhecidas. Frente a essa perspectiva, medidas que representam particularidades dentro dessas sequências devem ser identificadas. Este trabalho propõe duas metodologias para caracterizar as sequências genômicas baseadas na teoria das redes complexas e teoria da informação. A teoria da informação lida com a frequência das ocorrências de nucleotídeos, dinucleotídeos e trinucleotídeos dentro de uma sequência para calcular entropia, soma de entropia e valor máximo da entropia para compor as características da mesma. As redes complexas por sua vez, retratam as sequências como uma rede através da ocorrência de encontro entre os nucleotídeos, dinucleotídeos e trinucleotídeos dentro da sequência. As medidas das metodologias são utilizadas na classificação com métodos classificadores como SVM, MultiLayerPerceptron, J48, IBK, NaiveBayes e RandomForest, para os quais foram obtidos resultados similares apresentando pouca diferença a favor das redes complexas, sendo que o RandomForest apresentou os melhores resultados com aproximadamente 86% de acurácia, seguido do J48 com 84% e do MultiLayerPerceptron com 82%. Os resultados obtidos indicam que através dessa abordagem de extração de características é possível alcançar bons níveis de classificação considerando a simplicidade dos métodos uma vez que são utilizadas somente as sequências genômicas sem nenhum outro conhecimento acerca delas.
publishDate 2014
dc.date.issued.fl_str_mv 2014
dc.date.accessioned.fl_str_mv 2022-05-10T00:15:22Z
dc.date.available.fl_str_mv 2022-05-10T00:15:22Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv CONQUE, Bruno Mendes Moro. Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas. 2014. Trabalho de Conclusão de Curso (Tecnologia em Análise e Desenvolvimento de Sistemas) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2014.
dc.identifier.uri.fl_str_mv http://repositorio.utfpr.edu.br/jspui/handle/1/28364
identifier_str_mv CONQUE, Bruno Mendes Moro. Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas. 2014. Trabalho de Conclusão de Curso (Tecnologia em Análise e Desenvolvimento de Sistemas) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2014.
url http://repositorio.utfpr.edu.br/jspui/handle/1/28364
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
dc.publisher.program.fl_str_mv Tecnologia em Análise e Desenvolvimento de Sistemas
dc.publisher.initials.fl_str_mv UTFPR
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28364/2/license.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28364/1/CP_COADS_2014_2_03.pdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28364/3/CP_COADS_2014_2_03.pdf.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28364/4/CP_COADS_2014_2_03.pdf.jpg
bitstream.checksum.fl_str_mv b9d82215ab23456fa2d8b49c5df1b95b
7d0e0d2a8f796874082af50284f16717
1a442edea95f4fbb0e1823dab2eeb9b4
00f164180ff6595f6819bb9a5cc0bca5
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_ 1805923147065589760