Alinhamento múltiplo de seqüências utilizando otimização dialética
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPE |
dARK ID: | ark:/64986/001300000jxfm |
Texto Completo: | https://repositorio.ufpe.br/handle/123456789/10946 |
Resumo: | Este trabalho propõe uma abordagem baseada no método dialético de otimização para resolver o problema do alinhamento múltiplo de sequências (MSA). Nesta abordagem, problemas de múltiplo alinhamento de sequências são vistos como problemas de otimização, onde os candidatos à solução são modelados como vetores cujas componentes representam as posições das lacunas ao longo das sequências. Além disso, os candidatos a solução são avaliados através de uma função objetivo que é sugerida como uma composição de funções para pontuação de correspondências, funções para penalização e pontuação por aspectos desejados e não-desejados. Com o objetivo de testar computacionalmente esta proposta, foram criados um conjunto sintético de dados, composto de 50 grupos de 4 sequências e um modelo equivalente baseado em algoritmos genéticos. A representação de candidatos à solução baseada em posições trouxe um problema com relação à quantidade de lacunas que deveria ser utilizada no alinhamento de cada um dos 50 grupos de sequências. Como solução, a ferramenta ClustalW foi aplicada, em cada grupo de sequências, para produzir um alinhamento múltiplo, o qual foi utilizado para fornecer informações sobre a quantidade de lacunas utilizada. Os alinhamentos realizados pelo ClustalW também foram avaliados pela função objetivo proposta, para a produção de resultados comparáveis. Os experimentos foram definidos sob três abordagens quanto ao número de lacunas utilizado. Na primeira abordagem, para o alinhamento de cada grupo de sequências foi utilizada uma quantidade fixa de lacunas e equivalente à metade do comprimento das sequências, enquanto que na segunda abordagem, foi utilizada um número de lacunas igual ao usado pelo ClustalW. Na terceira abordagem, o número de lacunas usado por cada candidato à solução existente da população inicial foi definido com um valor escolhido aleatoriamente entre os valores que correspondem a 5% e 50% do comprimento. A cada abordagem, os experimentos foram refeitos utilizando-se uma variação na qual o alinhamento produzido pelo Clustal era inserido foi população inicial, em um processo conhecido como semeadura. Todos os experimentos foram primeiramente realizados utilizando o modelo alternativo, baseado em algoritmos genéticos, a fim de validar representação e função objetivo sugeridas, e, foram refeitos em seguida utilizando o método baseado em otimização dialética. Os resultados obtidos por ambos modelos foram comparados com os resultados obtidos pelos alinhamentos produzidos pelo ClustalW através do teste não-paramétrico de Wilcoxon para amostras pareadas. Em comparação com o algoritmo ClustalW, o modelo baseado no método dialético de otimização provou ser capaz de produzir alinhamentos de altos scores como também de realizar melhorias significativas nos alinhamentos encontrados pelo ClustalW. |
id |
UFPE_8c016f154af7d7c143dba2033d1f464a |
---|---|
oai_identifier_str |
oai:repositorio.ufpe.br:123456789/10946 |
network_acronym_str |
UFPE |
network_name_str |
Repositório Institucional da UFPE |
repository_id_str |
2221 |
spelling |
SOUZA, Rodrigo Gomes deSANTOS, Wellington Pinheiro dosYARA, Ricardo2015-03-05T19:23:54Z2015-03-05T19:23:54Z2014-03https://repositorio.ufpe.br/handle/123456789/10946ark:/64986/001300000jxfmEste trabalho propõe uma abordagem baseada no método dialético de otimização para resolver o problema do alinhamento múltiplo de sequências (MSA). Nesta abordagem, problemas de múltiplo alinhamento de sequências são vistos como problemas de otimização, onde os candidatos à solução são modelados como vetores cujas componentes representam as posições das lacunas ao longo das sequências. Além disso, os candidatos a solução são avaliados através de uma função objetivo que é sugerida como uma composição de funções para pontuação de correspondências, funções para penalização e pontuação por aspectos desejados e não-desejados. Com o objetivo de testar computacionalmente esta proposta, foram criados um conjunto sintético de dados, composto de 50 grupos de 4 sequências e um modelo equivalente baseado em algoritmos genéticos. A representação de candidatos à solução baseada em posições trouxe um problema com relação à quantidade de lacunas que deveria ser utilizada no alinhamento de cada um dos 50 grupos de sequências. Como solução, a ferramenta ClustalW foi aplicada, em cada grupo de sequências, para produzir um alinhamento múltiplo, o qual foi utilizado para fornecer informações sobre a quantidade de lacunas utilizada. Os alinhamentos realizados pelo ClustalW também foram avaliados pela função objetivo proposta, para a produção de resultados comparáveis. Os experimentos foram definidos sob três abordagens quanto ao número de lacunas utilizado. Na primeira abordagem, para o alinhamento de cada grupo de sequências foi utilizada uma quantidade fixa de lacunas e equivalente à metade do comprimento das sequências, enquanto que na segunda abordagem, foi utilizada um número de lacunas igual ao usado pelo ClustalW. Na terceira abordagem, o número de lacunas usado por cada candidato à solução existente da população inicial foi definido com um valor escolhido aleatoriamente entre os valores que correspondem a 5% e 50% do comprimento. A cada abordagem, os experimentos foram refeitos utilizando-se uma variação na qual o alinhamento produzido pelo Clustal era inserido foi população inicial, em um processo conhecido como semeadura. Todos os experimentos foram primeiramente realizados utilizando o modelo alternativo, baseado em algoritmos genéticos, a fim de validar representação e função objetivo sugeridas, e, foram refeitos em seguida utilizando o método baseado em otimização dialética. Os resultados obtidos por ambos modelos foram comparados com os resultados obtidos pelos alinhamentos produzidos pelo ClustalW através do teste não-paramétrico de Wilcoxon para amostras pareadas. Em comparação com o algoritmo ClustalW, o modelo baseado no método dialético de otimização provou ser capaz de produzir alinhamentos de altos scores como também de realizar melhorias significativas nos alinhamentos encontrados pelo ClustalW.porUniversidade Federal de PernambucoAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessAlinhamento múltiploDialéticaOtimizaçãoAlinhamento múltiplo de seqüências utilizando otimização dialéticainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILDISSERTAÇÃO Rodrigo Gomes de Souza.pdf.jpgDISSERTAÇÃO Rodrigo Gomes de Souza.pdf.jpgGenerated Thumbnailimage/jpeg1213https://repositorio.ufpe.br/bitstream/123456789/10946/5/DISSERTA%c3%87%c3%83O%20Rodrigo%20Gomes%20de%20Souza.pdf.jpg7a722f47c022e7cdf3e18a8165b6eea9MD55ORIGINALDISSERTAÇÃO Rodrigo Gomes de Souza.pdfDISSERTAÇÃO Rodrigo Gomes de Souza.pdfapplication/pdf3171313https://repositorio.ufpe.br/bitstream/123456789/10946/1/DISSERTA%c3%87%c3%83O%20Rodrigo%20Gomes%20de%20Souza.pdf9deb17b1d601430bdbd445f77529b69eMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81232https://repositorio.ufpe.br/bitstream/123456789/10946/2/license_rdf66e71c371cc565284e70f40736c94386MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82311https://repositorio.ufpe.br/bitstream/123456789/10946/3/license.txt4b8a02c7f2818eaf00dcf2260dd5eb08MD53TEXTDISSERTAÇÃO Rodrigo Gomes de Souza.pdf.txtDISSERTAÇÃO Rodrigo Gomes de Souza.pdf.txtExtracted texttext/plain218081https://repositorio.ufpe.br/bitstream/123456789/10946/4/DISSERTA%c3%87%c3%83O%20Rodrigo%20Gomes%20de%20Souza.pdf.txtd7041e139b89ba36a87928c2cfd6901fMD54123456789/109462019-10-25 04:34:55.804oai:repositorio.ufpe.br:123456789/10946TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLMKgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUEUgaWRlbnRpZmljYXLDoSBjbGFyYW1lbnRlIG8ocykgbm9tZShzKSBkbyhzKSBhdXRvciAoZXMpIGRvcyBkaXJlaXRvcyBkbyBkb2N1bWVudG8gZW50cmVndWUgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRvIHByZXZpc3RvIG5hIGFsw61uZWEgYykuCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T07:34:55Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
dc.title.pt_BR.fl_str_mv |
Alinhamento múltiplo de seqüências utilizando otimização dialética |
title |
Alinhamento múltiplo de seqüências utilizando otimização dialética |
spellingShingle |
Alinhamento múltiplo de seqüências utilizando otimização dialética SOUZA, Rodrigo Gomes de Alinhamento múltiplo Dialética Otimização |
title_short |
Alinhamento múltiplo de seqüências utilizando otimização dialética |
title_full |
Alinhamento múltiplo de seqüências utilizando otimização dialética |
title_fullStr |
Alinhamento múltiplo de seqüências utilizando otimização dialética |
title_full_unstemmed |
Alinhamento múltiplo de seqüências utilizando otimização dialética |
title_sort |
Alinhamento múltiplo de seqüências utilizando otimização dialética |
author |
SOUZA, Rodrigo Gomes de |
author_facet |
SOUZA, Rodrigo Gomes de |
author_role |
author |
dc.contributor.author.fl_str_mv |
SOUZA, Rodrigo Gomes de |
dc.contributor.advisor1.fl_str_mv |
SANTOS, Wellington Pinheiro dos |
dc.contributor.advisor-co1.fl_str_mv |
YARA, Ricardo |
contributor_str_mv |
SANTOS, Wellington Pinheiro dos YARA, Ricardo |
dc.subject.por.fl_str_mv |
Alinhamento múltiplo Dialética Otimização |
topic |
Alinhamento múltiplo Dialética Otimização |
description |
Este trabalho propõe uma abordagem baseada no método dialético de otimização para resolver o problema do alinhamento múltiplo de sequências (MSA). Nesta abordagem, problemas de múltiplo alinhamento de sequências são vistos como problemas de otimização, onde os candidatos à solução são modelados como vetores cujas componentes representam as posições das lacunas ao longo das sequências. Além disso, os candidatos a solução são avaliados através de uma função objetivo que é sugerida como uma composição de funções para pontuação de correspondências, funções para penalização e pontuação por aspectos desejados e não-desejados. Com o objetivo de testar computacionalmente esta proposta, foram criados um conjunto sintético de dados, composto de 50 grupos de 4 sequências e um modelo equivalente baseado em algoritmos genéticos. A representação de candidatos à solução baseada em posições trouxe um problema com relação à quantidade de lacunas que deveria ser utilizada no alinhamento de cada um dos 50 grupos de sequências. Como solução, a ferramenta ClustalW foi aplicada, em cada grupo de sequências, para produzir um alinhamento múltiplo, o qual foi utilizado para fornecer informações sobre a quantidade de lacunas utilizada. Os alinhamentos realizados pelo ClustalW também foram avaliados pela função objetivo proposta, para a produção de resultados comparáveis. Os experimentos foram definidos sob três abordagens quanto ao número de lacunas utilizado. Na primeira abordagem, para o alinhamento de cada grupo de sequências foi utilizada uma quantidade fixa de lacunas e equivalente à metade do comprimento das sequências, enquanto que na segunda abordagem, foi utilizada um número de lacunas igual ao usado pelo ClustalW. Na terceira abordagem, o número de lacunas usado por cada candidato à solução existente da população inicial foi definido com um valor escolhido aleatoriamente entre os valores que correspondem a 5% e 50% do comprimento. A cada abordagem, os experimentos foram refeitos utilizando-se uma variação na qual o alinhamento produzido pelo Clustal era inserido foi população inicial, em um processo conhecido como semeadura. Todos os experimentos foram primeiramente realizados utilizando o modelo alternativo, baseado em algoritmos genéticos, a fim de validar representação e função objetivo sugeridas, e, foram refeitos em seguida utilizando o método baseado em otimização dialética. Os resultados obtidos por ambos modelos foram comparados com os resultados obtidos pelos alinhamentos produzidos pelo ClustalW através do teste não-paramétrico de Wilcoxon para amostras pareadas. Em comparação com o algoritmo ClustalW, o modelo baseado no método dialético de otimização provou ser capaz de produzir alinhamentos de altos scores como também de realizar melhorias significativas nos alinhamentos encontrados pelo ClustalW. |
publishDate |
2014 |
dc.date.issued.fl_str_mv |
2014-03 |
dc.date.accessioned.fl_str_mv |
2015-03-05T19:23:54Z |
dc.date.available.fl_str_mv |
2015-03-05T19:23:54Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufpe.br/handle/123456789/10946 |
dc.identifier.dark.fl_str_mv |
ark:/64986/001300000jxfm |
url |
https://repositorio.ufpe.br/handle/123456789/10946 |
identifier_str_mv |
ark:/64986/001300000jxfm |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
instname_str |
Universidade Federal de Pernambuco (UFPE) |
instacron_str |
UFPE |
institution |
UFPE |
reponame_str |
Repositório Institucional da UFPE |
collection |
Repositório Institucional da UFPE |
bitstream.url.fl_str_mv |
https://repositorio.ufpe.br/bitstream/123456789/10946/5/DISSERTA%c3%87%c3%83O%20Rodrigo%20Gomes%20de%20Souza.pdf.jpg https://repositorio.ufpe.br/bitstream/123456789/10946/1/DISSERTA%c3%87%c3%83O%20Rodrigo%20Gomes%20de%20Souza.pdf https://repositorio.ufpe.br/bitstream/123456789/10946/2/license_rdf https://repositorio.ufpe.br/bitstream/123456789/10946/3/license.txt https://repositorio.ufpe.br/bitstream/123456789/10946/4/DISSERTA%c3%87%c3%83O%20Rodrigo%20Gomes%20de%20Souza.pdf.txt |
bitstream.checksum.fl_str_mv |
7a722f47c022e7cdf3e18a8165b6eea9 9deb17b1d601430bdbd445f77529b69e 66e71c371cc565284e70f40736c94386 4b8a02c7f2818eaf00dcf2260dd5eb08 d7041e139b89ba36a87928c2cfd6901f |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
repository.mail.fl_str_mv |
attena@ufpe.br |
_version_ |
1815172842344415232 |