Feature extraction and selection analysis in biological sequence: a case study with metaheuristics and mathematical models

Detalhes bibliográficos
Autor(a) principal: Bonidia, Robson Parmezan
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/5301
Resumo: O número de sequências biológicas disponíveis aumentou em grandes quantidades nos últimos anos, devido a vários projetos de sequenciamento genômico, criando um alto volume de dados. Consequentemente, novos métodos computacionais são necessários para a análise e extração de informações a partir dessas sequências. Métodos de aprendizado de máquina têm apresentado ampla aplicabilidade em biologia computacional e bioinformática. A aplicação desses métodos tem ajudado a extrair informações relevantes de vários conjuntos de dados biológicos. No entanto, ainda existem vários problemas desafiadores que motivam novas propostas de algoritmos e pipelines. Portanto, este trabalho propõe um pipeline genérico de aprendizado de máquina para análise de sequência biológica, seguindo duas etapas principais: (1) extração e (2) seleção de características. Essencialmente, concentramos nosso trabalho no estudo de técnicas de redução de dimensionalidade e extração de recursos, usando metaheurísticas e modelos matemáticos. Como estudo de caso, analisamos sequências de RNAs longos não codificantes. Além disso, dividimos esta dissertação em duas partes: Teste Experimental I (seleção de características) e Teste Experimental II (extração de características). Os resultados experimentais indicam quatro contribuições principais: (1) Um pipeline com 5 metaheurísticas diferentes, usando um esquema de votação e rodadas de execução, ao problema de seleção de características em sequências biológicas; (2) A eficiência metaheurística, proporcionando desempenho de classificação competitiva; (3) Um pipeline de extração de recursos usando 9 modelos matemáticos e (4) sua generalização e robustez para classificação de sequências biológicas distintas.
id UTFPR-12_7ed96a2219f0b96754112234d4d17f03
oai_identifier_str oai:repositorio.utfpr.edu.br:1/5301
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling 2020-10-27T00:30:26Z2020-10-27T00:30:26Z2020-02-12BONIDIA, Robson Parmezan. Feature extraction and selection analysis in biological sequence: a case study with metaheuristics and mathematical models. 2020. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2020.http://repositorio.utfpr.edu.br/jspui/handle/1/5301O número de sequências biológicas disponíveis aumentou em grandes quantidades nos últimos anos, devido a vários projetos de sequenciamento genômico, criando um alto volume de dados. Consequentemente, novos métodos computacionais são necessários para a análise e extração de informações a partir dessas sequências. Métodos de aprendizado de máquina têm apresentado ampla aplicabilidade em biologia computacional e bioinformática. A aplicação desses métodos tem ajudado a extrair informações relevantes de vários conjuntos de dados biológicos. No entanto, ainda existem vários problemas desafiadores que motivam novas propostas de algoritmos e pipelines. Portanto, este trabalho propõe um pipeline genérico de aprendizado de máquina para análise de sequência biológica, seguindo duas etapas principais: (1) extração e (2) seleção de características. Essencialmente, concentramos nosso trabalho no estudo de técnicas de redução de dimensionalidade e extração de recursos, usando metaheurísticas e modelos matemáticos. Como estudo de caso, analisamos sequências de RNAs longos não codificantes. Além disso, dividimos esta dissertação em duas partes: Teste Experimental I (seleção de características) e Teste Experimental II (extração de características). Os resultados experimentais indicam quatro contribuições principais: (1) Um pipeline com 5 metaheurísticas diferentes, usando um esquema de votação e rodadas de execução, ao problema de seleção de características em sequências biológicas; (2) A eficiência metaheurística, proporcionando desempenho de classificação competitiva; (3) Um pipeline de extração de recursos usando 9 modelos matemáticos e (4) sua generalização e robustez para classificação de sequências biológicas distintas.The number of available biological sequences has increased in large amounts in past years, due to various genomic sequencing projects, creating a huge volume of data. Consequently, new computational methods are needed for the analysis and information extraction from these sequences. Machine learning methods have shown broad applicability in computational biology and bioinformatics. The application of machine learning methods has helped to extract relevant information from various biological datasets. However, there are still several challenging problems that motivate new algorithms and pipeline proposals. Therefore, this work proposes a generic machine learning pipeline for biological sequence analysis, following two main steps: (1) feature extraction and (2) feature selection. Essentially, we focus our work on the study of dimensionality reduction and feature extraction techniques, using metaheuristics and mathematical models. As a case study, we analyze Long Non-Coding RNA sequences. Moreover, we divided this dissertation into two parts, e.g., Experimental Test I (feature selection) and Experimental Test II (feature extraction). The experimental results indicated four main contributions: (1) A pipeline with five distinct metaheuristics, using a voting scheme and execution rounds, to the feature selection problem in biological sequences; (2) The metaheuristic efficiency, providing competitive classification performance; (3) A feature extraction pipeline using nine mathematical models and (4) its generalization and robustness for distinct biological sequence classification.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)engUniversidade Tecnológica Federal do ParanáCornelio ProcopioPrograma de Pós-Graduação em BioinformáticaUTFPRBrasilCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOEngenharia/Tecnologia/GestãoMachine learningMathematical modelsHeuristic programmingAprendizado do computadorModelos matemáticosProgramação heurísticaFeature extraction and selection analysis in biological sequence: a case study with metaheuristics and mathematical modelsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisCornélio ProcópioSanches, Danilo Sipolihttp://lattes.cnpq.br/6377657274398145Paschoal, Alexandre Rossi0000-0002-8887-0582http://lattes.cnpq.br/5834088144837137Carvalho, Andre Carlos Ponce de Leon Ferreira dehttp://lattes.cnpq.br/9674541381385819Sanches, Danilo Sipolihttp://lattes.cnpq.br/6377657274398145Lopes, Fabricio Martinshttp://lattes.cnpq.br/1660070580824436https://orcid.org/0000-0003-4975-7867http://lattes.cnpq.br/1572375422051077Bonidia, Robson Parmezaninfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRORIGINALCP_PPGBIOINFO_M_Bonidia,_Robson_Parmezan_2020.pdfapplication/pdf1991223http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/5301/1/CP_PPGBIOINFO_M_Bonidia%2c_Robson_Parmezan_2020.pdf88b52dc8c478fc06b57ad77d24f2296cMD51TEXTCP_PPGBIOINFO_M_Bonidia,_Robson_Parmezan_2020.pdf.txtCP_PPGBIOINFO_M_Bonidia,_Robson_Parmezan_2020.pdf.txtExtracted texttext/plain209687http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/5301/2/CP_PPGBIOINFO_M_Bonidia%2c_Robson_Parmezan_2020.pdf.txt6c11809d25436d39733032057e074424MD52THUMBNAILCP_PPGBIOINFO_M_Bonidia,_Robson_Parmezan_2020.pdf.jpgCP_PPGBIOINFO_M_Bonidia,_Robson_Parmezan_2020.pdf.jpgGenerated Thumbnailimage/jpeg1252http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/5301/3/CP_PPGBIOINFO_M_Bonidia%2c_Robson_Parmezan_2020.pdf.jpg1e61f40ea2ab1948467a6e4df5b6a2daMD531/53012022-08-12 12:44:17.375oai:repositorio.utfpr.edu.br:1/5301Repositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2022-08-12T15:44:17Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv Feature extraction and selection analysis in biological sequence: a case study with metaheuristics and mathematical models
title Feature extraction and selection analysis in biological sequence: a case study with metaheuristics and mathematical models
spellingShingle Feature extraction and selection analysis in biological sequence: a case study with metaheuristics and mathematical models
Bonidia, Robson Parmezan
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Machine learning
Mathematical models
Heuristic programming
Aprendizado do computador
Modelos matemáticos
Programação heurística
Engenharia/Tecnologia/Gestão
title_short Feature extraction and selection analysis in biological sequence: a case study with metaheuristics and mathematical models
title_full Feature extraction and selection analysis in biological sequence: a case study with metaheuristics and mathematical models
title_fullStr Feature extraction and selection analysis in biological sequence: a case study with metaheuristics and mathematical models
title_full_unstemmed Feature extraction and selection analysis in biological sequence: a case study with metaheuristics and mathematical models
title_sort Feature extraction and selection analysis in biological sequence: a case study with metaheuristics and mathematical models
author Bonidia, Robson Parmezan
author_facet Bonidia, Robson Parmezan
author_role author
dc.contributor.advisor1.fl_str_mv Sanches, Danilo Sipoli
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6377657274398145
dc.contributor.advisor-co1.fl_str_mv Paschoal, Alexandre Rossi
dc.contributor.advisor-co1ID.fl_str_mv 0000-0002-8887-0582
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/5834088144837137
dc.contributor.referee1.fl_str_mv Carvalho, Andre Carlos Ponce de Leon Ferreira de
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/9674541381385819
dc.contributor.referee2.fl_str_mv Sanches, Danilo Sipoli
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/6377657274398145
dc.contributor.referee3.fl_str_mv Lopes, Fabricio Martins
dc.contributor.referee3Lattes.fl_str_mv http://lattes.cnpq.br/1660070580824436
dc.contributor.authorID.fl_str_mv https://orcid.org/0000-0003-4975-7867
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/1572375422051077
dc.contributor.author.fl_str_mv Bonidia, Robson Parmezan
contributor_str_mv Sanches, Danilo Sipoli
Paschoal, Alexandre Rossi
Carvalho, Andre Carlos Ponce de Leon Ferreira de
Sanches, Danilo Sipoli
Lopes, Fabricio Martins
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Machine learning
Mathematical models
Heuristic programming
Aprendizado do computador
Modelos matemáticos
Programação heurística
Engenharia/Tecnologia/Gestão
dc.subject.por.fl_str_mv Machine learning
Mathematical models
Heuristic programming
Aprendizado do computador
Modelos matemáticos
Programação heurística
dc.subject.capes.pt_BR.fl_str_mv Engenharia/Tecnologia/Gestão
description O número de sequências biológicas disponíveis aumentou em grandes quantidades nos últimos anos, devido a vários projetos de sequenciamento genômico, criando um alto volume de dados. Consequentemente, novos métodos computacionais são necessários para a análise e extração de informações a partir dessas sequências. Métodos de aprendizado de máquina têm apresentado ampla aplicabilidade em biologia computacional e bioinformática. A aplicação desses métodos tem ajudado a extrair informações relevantes de vários conjuntos de dados biológicos. No entanto, ainda existem vários problemas desafiadores que motivam novas propostas de algoritmos e pipelines. Portanto, este trabalho propõe um pipeline genérico de aprendizado de máquina para análise de sequência biológica, seguindo duas etapas principais: (1) extração e (2) seleção de características. Essencialmente, concentramos nosso trabalho no estudo de técnicas de redução de dimensionalidade e extração de recursos, usando metaheurísticas e modelos matemáticos. Como estudo de caso, analisamos sequências de RNAs longos não codificantes. Além disso, dividimos esta dissertação em duas partes: Teste Experimental I (seleção de características) e Teste Experimental II (extração de características). Os resultados experimentais indicam quatro contribuições principais: (1) Um pipeline com 5 metaheurísticas diferentes, usando um esquema de votação e rodadas de execução, ao problema de seleção de características em sequências biológicas; (2) A eficiência metaheurística, proporcionando desempenho de classificação competitiva; (3) Um pipeline de extração de recursos usando 9 modelos matemáticos e (4) sua generalização e robustez para classificação de sequências biológicas distintas.
publishDate 2020
dc.date.accessioned.fl_str_mv 2020-10-27T00:30:26Z
dc.date.available.fl_str_mv 2020-10-27T00:30:26Z
dc.date.issued.fl_str_mv 2020-02-12
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv BONIDIA, Robson Parmezan. Feature extraction and selection analysis in biological sequence: a case study with metaheuristics and mathematical models. 2020. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2020.
dc.identifier.uri.fl_str_mv http://repositorio.utfpr.edu.br/jspui/handle/1/5301
identifier_str_mv BONIDIA, Robson Parmezan. Feature extraction and selection analysis in biological sequence: a case study with metaheuristics and mathematical models. 2020. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2020.
url http://repositorio.utfpr.edu.br/jspui/handle/1/5301
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Bioinformática
dc.publisher.initials.fl_str_mv UTFPR
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/5301/1/CP_PPGBIOINFO_M_Bonidia%2c_Robson_Parmezan_2020.pdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/5301/2/CP_PPGBIOINFO_M_Bonidia%2c_Robson_Parmezan_2020.pdf.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/5301/3/CP_PPGBIOINFO_M_Bonidia%2c_Robson_Parmezan_2020.pdf.jpg
bitstream.checksum.fl_str_mv 88b52dc8c478fc06b57ad77d24f2296c
6c11809d25436d39733032057e074424
1e61f40ea2ab1948467a6e4df5b6a2da
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_ 1805923134851776512