Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
Texto Completo: | http://repositorio.utfpr.edu.br/jspui/handle/1/28364 |
Resumo: | No âmbito da bioinformática, o reconhecimento de padrões dentro de sequências genômicas pode ser utilizado para classificar regiões (gênica, promotora, não-codificante) de um DNA. Neste sentido, caso uma boa classificação ocorra um modelo pode ser gerado para inferir sequências desconhecidas. Frente a essa perspectiva, medidas que representam particularidades dentro dessas sequências devem ser identificadas. Este trabalho propõe duas metodologias para caracterizar as sequências genômicas baseadas na teoria das redes complexas e teoria da informação. A teoria da informação lida com a frequência das ocorrências de nucleotídeos, dinucleotídeos e trinucleotídeos dentro de uma sequência para calcular entropia, soma de entropia e valor máximo da entropia para compor as características da mesma. As redes complexas por sua vez, retratam as sequências como uma rede através da ocorrência de encontro entre os nucleotídeos, dinucleotídeos e trinucleotídeos dentro da sequência. As medidas das metodologias são utilizadas na classificação com métodos classificadores como SVM, MultiLayerPerceptron, J48, IBK, NaiveBayes e RandomForest, para os quais foram obtidos resultados similares apresentando pouca diferença a favor das redes complexas, sendo que o RandomForest apresentou os melhores resultados com aproximadamente 86% de acurácia, seguido do J48 com 84% e do MultiLayerPerceptron com 82%. Os resultados obtidos indicam que através dessa abordagem de extração de características é possível alcançar bons níveis de classificação considerando a simplicidade dos métodos uma vez que são utilizadas somente as sequências genômicas sem nenhum outro conhecimento acerca delas. |
id |
UTFPR-12_4b3110bf45440f7e1069305ada24055d |
---|---|
oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/28364 |
network_acronym_str |
UTFPR-12 |
network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
repository_id_str |
|
spelling |
2022-05-10T00:15:22Z2022-05-10T00:15:22Z2014CONQUE, Bruno Mendes Moro. Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas. 2014. Trabalho de Conclusão de Curso (Tecnologia em Análise e Desenvolvimento de Sistemas) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2014.http://repositorio.utfpr.edu.br/jspui/handle/1/28364No âmbito da bioinformática, o reconhecimento de padrões dentro de sequências genômicas pode ser utilizado para classificar regiões (gênica, promotora, não-codificante) de um DNA. Neste sentido, caso uma boa classificação ocorra um modelo pode ser gerado para inferir sequências desconhecidas. Frente a essa perspectiva, medidas que representam particularidades dentro dessas sequências devem ser identificadas. Este trabalho propõe duas metodologias para caracterizar as sequências genômicas baseadas na teoria das redes complexas e teoria da informação. A teoria da informação lida com a frequência das ocorrências de nucleotídeos, dinucleotídeos e trinucleotídeos dentro de uma sequência para calcular entropia, soma de entropia e valor máximo da entropia para compor as características da mesma. As redes complexas por sua vez, retratam as sequências como uma rede através da ocorrência de encontro entre os nucleotídeos, dinucleotídeos e trinucleotídeos dentro da sequência. As medidas das metodologias são utilizadas na classificação com métodos classificadores como SVM, MultiLayerPerceptron, J48, IBK, NaiveBayes e RandomForest, para os quais foram obtidos resultados similares apresentando pouca diferença a favor das redes complexas, sendo que o RandomForest apresentou os melhores resultados com aproximadamente 86% de acurácia, seguido do J48 com 84% e do MultiLayerPerceptron com 82%. Os resultados obtidos indicam que através dessa abordagem de extração de características é possível alcançar bons níveis de classificação considerando a simplicidade dos métodos uma vez que são utilizadas somente as sequências genômicas sem nenhum outro conhecimento acerca delas.Within the scope of bioinformatics, pattern recognition in genomic sequences can be used to classify regions (gene, promoter, non-coding) of a DNA. In this sense, if a model a good classification occurs can be generated to infer unknown sequences. Faced with this prospect, measures that represent characteristics within these sequences must be identified. This paper proposes two methods to characterize the genomic sequences based on the theory of complex networks and information theory. Information theory deals with the frequency of occurrences of nucleotide, dinucleotide and trinucleotide within a sequence to calculate entropy, sum entropy and maximum entropy to compose the same characteristics. Complex networks in turn retrate the sequences as a network through the occurring of the nucleotides, dinucleotides and trinucleotides within the same. Measures of methodologies are used in the classification methods such as SVM classifiers, MultiLayerPerceptron, J48, IBK, and NaiveBayes RandomForest, where similar results were obtained among the methods, showing little difference in favor of the complex networks, wherein RandomForest showed the best results with approximately 86 % accuracy, followed by J48 with 84 % and MultiLayerPerceptron with 82 %. The results indicate that by such feature extraction approach can achieve good classification levels considering the simplicity of the methods used since they are only genomic sequences without any further knowledge about them.porUniversidade Tecnológica Federal do ParanáCornelio ProcopioTecnologia em Análise e Desenvolvimento de SistemasUTFPRBrasilCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOBioinformáticaGenômicaClassificaçãoBioinformaticsGenomicsClassificationExtração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisCornélio ProcópioLopes, Fabrício MartinsKashiwabara, André YoshiakiLopes, Fabrício MartinsPaschoal , Alexandre RossiKashiwabara, André YoshiakiConque, Bruno Mendes Moroinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRLICENSElicense.txtlicense.txttext/plain; charset=utf-81290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28364/2/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD52ORIGINALCP_COADS_2014_2_03.pdfCP_COADS_2014_2_03.pdfapplication/pdf1948872http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28364/1/CP_COADS_2014_2_03.pdf7d0e0d2a8f796874082af50284f16717MD51TEXTCP_COADS_2014_2_03.pdf.txtCP_COADS_2014_2_03.pdf.txtExtracted texttext/plain73784http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28364/3/CP_COADS_2014_2_03.pdf.txt1a442edea95f4fbb0e1823dab2eeb9b4MD53THUMBNAILCP_COADS_2014_2_03.pdf.jpgCP_COADS_2014_2_03.pdf.jpgGenerated Thumbnailimage/jpeg1349http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28364/4/CP_COADS_2014_2_03.pdf.jpg00f164180ff6595f6819bb9a5cc0bca5MD541/283642022-05-10 03:08:05.456oai:repositorio.utfpr.edu.br:1/28364TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2022-05-10T06:08:05Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
dc.title.pt_BR.fl_str_mv |
Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas |
title |
Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas |
spellingShingle |
Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas Conque, Bruno Mendes Moro CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO Bioinformática Genômica Classificação Bioinformatics Genomics Classification |
title_short |
Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas |
title_full |
Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas |
title_fullStr |
Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas |
title_full_unstemmed |
Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas |
title_sort |
Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas |
author |
Conque, Bruno Mendes Moro |
author_facet |
Conque, Bruno Mendes Moro |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Lopes, Fabrício Martins |
dc.contributor.advisor-co1.fl_str_mv |
Kashiwabara, André Yoshiaki |
dc.contributor.referee1.fl_str_mv |
Lopes, Fabrício Martins |
dc.contributor.referee2.fl_str_mv |
Paschoal , Alexandre Rossi |
dc.contributor.referee3.fl_str_mv |
Kashiwabara, André Yoshiaki |
dc.contributor.author.fl_str_mv |
Conque, Bruno Mendes Moro |
contributor_str_mv |
Lopes, Fabrício Martins Kashiwabara, André Yoshiaki Lopes, Fabrício Martins Paschoal , Alexandre Rossi Kashiwabara, André Yoshiaki |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO |
topic |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO Bioinformática Genômica Classificação Bioinformatics Genomics Classification |
dc.subject.por.fl_str_mv |
Bioinformática Genômica Classificação Bioinformatics Genomics Classification |
description |
No âmbito da bioinformática, o reconhecimento de padrões dentro de sequências genômicas pode ser utilizado para classificar regiões (gênica, promotora, não-codificante) de um DNA. Neste sentido, caso uma boa classificação ocorra um modelo pode ser gerado para inferir sequências desconhecidas. Frente a essa perspectiva, medidas que representam particularidades dentro dessas sequências devem ser identificadas. Este trabalho propõe duas metodologias para caracterizar as sequências genômicas baseadas na teoria das redes complexas e teoria da informação. A teoria da informação lida com a frequência das ocorrências de nucleotídeos, dinucleotídeos e trinucleotídeos dentro de uma sequência para calcular entropia, soma de entropia e valor máximo da entropia para compor as características da mesma. As redes complexas por sua vez, retratam as sequências como uma rede através da ocorrência de encontro entre os nucleotídeos, dinucleotídeos e trinucleotídeos dentro da sequência. As medidas das metodologias são utilizadas na classificação com métodos classificadores como SVM, MultiLayerPerceptron, J48, IBK, NaiveBayes e RandomForest, para os quais foram obtidos resultados similares apresentando pouca diferença a favor das redes complexas, sendo que o RandomForest apresentou os melhores resultados com aproximadamente 86% de acurácia, seguido do J48 com 84% e do MultiLayerPerceptron com 82%. Os resultados obtidos indicam que através dessa abordagem de extração de características é possível alcançar bons níveis de classificação considerando a simplicidade dos métodos uma vez que são utilizadas somente as sequências genômicas sem nenhum outro conhecimento acerca delas. |
publishDate |
2014 |
dc.date.issued.fl_str_mv |
2014 |
dc.date.accessioned.fl_str_mv |
2022-05-10T00:15:22Z |
dc.date.available.fl_str_mv |
2022-05-10T00:15:22Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
CONQUE, Bruno Mendes Moro. Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas. 2014. Trabalho de Conclusão de Curso (Tecnologia em Análise e Desenvolvimento de Sistemas) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2014. |
dc.identifier.uri.fl_str_mv |
http://repositorio.utfpr.edu.br/jspui/handle/1/28364 |
identifier_str_mv |
CONQUE, Bruno Mendes Moro. Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas. 2014. Trabalho de Conclusão de Curso (Tecnologia em Análise e Desenvolvimento de Sistemas) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2014. |
url |
http://repositorio.utfpr.edu.br/jspui/handle/1/28364 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Cornelio Procopio |
dc.publisher.program.fl_str_mv |
Tecnologia em Análise e Desenvolvimento de Sistemas |
dc.publisher.initials.fl_str_mv |
UTFPR |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Cornelio Procopio |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
instacron_str |
UTFPR |
institution |
UTFPR |
reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
bitstream.url.fl_str_mv |
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28364/2/license.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28364/1/CP_COADS_2014_2_03.pdf http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28364/3/CP_COADS_2014_2_03.pdf.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28364/4/CP_COADS_2014_2_03.pdf.jpg |
bitstream.checksum.fl_str_mv |
b9d82215ab23456fa2d8b49c5df1b95b 7d0e0d2a8f796874082af50284f16717 1a442edea95f4fbb0e1823dab2eeb9b4 00f164180ff6595f6819bb9a5cc0bca5 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
repository.mail.fl_str_mv |
|
_version_ |
1805923147065589760 |