Identificação de atributos relevantes em sequências de protease e transcriptase reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas antirretrovirais.

Detalhes bibliográficos
Autor(a) principal: Oliveira, Samuel Evangelista Lima de
Data de Publicação: 2012
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFOP
Texto Completo: http://www.repositorio.ufop.br/handle/123456789/2175
Resumo: O vírus da Imunode ciência Humana é um retrovirus que ataca principalmente o sistema imunológico humano, reduzindo progressivamente a sua e cácia. Combinações de drogas antirretrovirais são utilizadas no tratamento da infecção por HIV, contudo, as altas taxas de mutação nesse vírus podem desencadear fenótipos virais resistentes a alguns antirretrovirais e, consequentemente, causar falhas no tratamento. Alguns trabalhos propostos na literatura utilizam técnicas de mineração de dados para predizer a resposta de um paciente à terapia antirretroviral que está sendo utilizada. Contudo ainda há poucos estudos que avaliem a in uência que diferentes tipos de atributos na tarefa de predição da resposta de pacientes às drogas antirretrovirais. Neste trabalho é apresentado um estudo comparativo sobre a utilização de diferentes atributos na predição da resposta de pacientes recém infectados pelo HIV-1 ao tratamento com antirretrovirais. Foram utilizados diferentes conjuntos de atributos para o treinamento de quatro modelos de classi cação. A partir desses conjuntos de atributos foram realizadas três etapas de testes que envolveram a avaliação do impacto do desbalanceamento das bases no resultado dos modelos de classi cação, a análise da importância de cada grupo de atributos e, por m, uma etapa de seleção de atributos. A partir da avaliação do impacto do desbalanceamento nas bases de dados pode-se observar que uma etapa de balanceamento ajudou na obtenção de resultados mais equilibrados entre as duas classes do problema de classi cação em questão. Por sua vez a análise da importância dos diferentes grupos de atributos demonstrou que os melhores resultados de predição foram obtidos para os atributos que representam os níveis de resistência dos pacientes às drogas antirretrovirais. Por m, as bases de dados obtidas após uma fase de seleção de atributos apresentaram melhores resultados de predição quando compostas por um conjunto variado de atributos. Nesta etapa dos testes foi possível observar novamente a importância dos atributos de nível de resistência, bem como a importância de um atributo que representa o tamanho de uma determinada proteína do HIV.
id UFOP_bed613708467cb16ec62caa5bed9c7d1
oai_identifier_str oai:localhost:123456789/2175
network_acronym_str UFOP
network_name_str Repositório Institucional da UFOP
repository_id_str 3233
spelling Oliveira, Samuel Evangelista Lima deMerschmann, Luiz Henrique de Campos2013-02-15T17:46:44Z2013-02-15T17:46:44Z2012OLIVEIRA, S. E. L. de. Identificação de atributos relevantes em sequências de protease e transcriptase reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas antirretrovirais. 2012. 70 f. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Ouro Preto, Ouro Preto, 2012.http://www.repositorio.ufop.br/handle/123456789/2175O vírus da Imunode ciência Humana é um retrovirus que ataca principalmente o sistema imunológico humano, reduzindo progressivamente a sua e cácia. Combinações de drogas antirretrovirais são utilizadas no tratamento da infecção por HIV, contudo, as altas taxas de mutação nesse vírus podem desencadear fenótipos virais resistentes a alguns antirretrovirais e, consequentemente, causar falhas no tratamento. Alguns trabalhos propostos na literatura utilizam técnicas de mineração de dados para predizer a resposta de um paciente à terapia antirretroviral que está sendo utilizada. Contudo ainda há poucos estudos que avaliem a in uência que diferentes tipos de atributos na tarefa de predição da resposta de pacientes às drogas antirretrovirais. Neste trabalho é apresentado um estudo comparativo sobre a utilização de diferentes atributos na predição da resposta de pacientes recém infectados pelo HIV-1 ao tratamento com antirretrovirais. Foram utilizados diferentes conjuntos de atributos para o treinamento de quatro modelos de classi cação. A partir desses conjuntos de atributos foram realizadas três etapas de testes que envolveram a avaliação do impacto do desbalanceamento das bases no resultado dos modelos de classi cação, a análise da importância de cada grupo de atributos e, por m, uma etapa de seleção de atributos. A partir da avaliação do impacto do desbalanceamento nas bases de dados pode-se observar que uma etapa de balanceamento ajudou na obtenção de resultados mais equilibrados entre as duas classes do problema de classi cação em questão. Por sua vez a análise da importância dos diferentes grupos de atributos demonstrou que os melhores resultados de predição foram obtidos para os atributos que representam os níveis de resistência dos pacientes às drogas antirretrovirais. Por m, as bases de dados obtidas após uma fase de seleção de atributos apresentaram melhores resultados de predição quando compostas por um conjunto variado de atributos. Nesta etapa dos testes foi possível observar novamente a importância dos atributos de nível de resistência, bem como a importância de um atributo que representa o tamanho de uma determinada proteína do HIV.The Human Immunodeficiency Virus (HIV) is a retrovirus that attacks the human immune system, progressively reducing its effectiveness. Combinations of antiretroviral drugs are used to treat the infection by HIV. However, the high mutation rate in the HIV virus makes it resistant to some antiretroviral drugs and leads to treatment failure. Nowadays, there are bioinformatic studies based on data mining techniques, to predict the patient's response to antirretroviral therapies. However, there are few studies evaluating the contribution of different types of features extracted from the HIV genotype in the prediction of patient's response to antirretroviral therapies. This work presents a study comparing the influence of different types of attributes in the prediction of patient's out come to therapy. The attributes were grouped in different datasets according to its biological meaning. Experiments were conduced trough four classification methods, using the datasets previously generated. Using these datasets it was possible to perform three experiments sets wich envolved, the evaluation about the impact of dataset's unbalance in the classification results, the significance of each attribute group and, finally, an attribute selection step. The results shown that, a previous balancing step helped to obtain good results to booth classes of the prediction problem addressed in this work. The results also shown that, between the attrbutes used in this work, the best attribute group for this prediction task are the attributes that indicate the petient's resistance levels to the antirretroviral drugs. Complementarly, the datasets obtained after an attribute selection step obtained better prediction results when they are composed of diverse of attributes. In these final experimentes was possible to notice again the signicance of the attributes that indicate the patient's resistance levels, as well, the significance of an attribute wich is the size of an specific HIV protein.Programa de Pós-Graduação em Ciência da Computação. Departamento de Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.Mineração de dadosClassificaçãoBioinformáticaData miningClassificationIdentificação de atributos relevantes em sequências de protease e transcriptase reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas antirretrovirais.info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFOPinstname:Universidade Federal de Ouro Preto (UFOP)instacron:UFOPinfo:eu-repo/semantics/openAccessLICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://www.repositorio.ufop.br/bitstream/123456789/2175/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52ORIGINALDISSERTAÇÃO_IdentificaçãoAtributosRelevantes.pdfDISSERTAÇÃO_IdentificaçãoAtributosRelevantes.pdfapplication/pdf2756361http://www.repositorio.ufop.br/bitstream/123456789/2175/1/DISSERTA%c3%87%c3%83O_Identifica%c3%a7%c3%a3oAtributosRelevantes.pdf5206c912a9ae2095c02856a28d343ef0MD51123456789/21752019-03-19 13:06:43.093oai:localhost:123456789/2175Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttp://www.repositorio.ufop.br/oai/requestrepositorio@ufop.edu.bropendoar:32332019-03-19T17:06:43Repositório Institucional da UFOP - Universidade Federal de Ouro Preto (UFOP)false
dc.title.pt_BR.fl_str_mv Identificação de atributos relevantes em sequências de protease e transcriptase reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas antirretrovirais.
title Identificação de atributos relevantes em sequências de protease e transcriptase reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas antirretrovirais.
spellingShingle Identificação de atributos relevantes em sequências de protease e transcriptase reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas antirretrovirais.
Oliveira, Samuel Evangelista Lima de
Mineração de dados
Classificação
Bioinformática
Data mining
Classification
title_short Identificação de atributos relevantes em sequências de protease e transcriptase reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas antirretrovirais.
title_full Identificação de atributos relevantes em sequências de protease e transcriptase reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas antirretrovirais.
title_fullStr Identificação de atributos relevantes em sequências de protease e transcriptase reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas antirretrovirais.
title_full_unstemmed Identificação de atributos relevantes em sequências de protease e transcriptase reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas antirretrovirais.
title_sort Identificação de atributos relevantes em sequências de protease e transcriptase reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas antirretrovirais.
author Oliveira, Samuel Evangelista Lima de
author_facet Oliveira, Samuel Evangelista Lima de
author_role author
dc.contributor.author.fl_str_mv Oliveira, Samuel Evangelista Lima de
dc.contributor.advisor1.fl_str_mv Merschmann, Luiz Henrique de Campos
contributor_str_mv Merschmann, Luiz Henrique de Campos
dc.subject.por.fl_str_mv Mineração de dados
Classificação
Bioinformática
Data mining
Classification
topic Mineração de dados
Classificação
Bioinformática
Data mining
Classification
description O vírus da Imunode ciência Humana é um retrovirus que ataca principalmente o sistema imunológico humano, reduzindo progressivamente a sua e cácia. Combinações de drogas antirretrovirais são utilizadas no tratamento da infecção por HIV, contudo, as altas taxas de mutação nesse vírus podem desencadear fenótipos virais resistentes a alguns antirretrovirais e, consequentemente, causar falhas no tratamento. Alguns trabalhos propostos na literatura utilizam técnicas de mineração de dados para predizer a resposta de um paciente à terapia antirretroviral que está sendo utilizada. Contudo ainda há poucos estudos que avaliem a in uência que diferentes tipos de atributos na tarefa de predição da resposta de pacientes às drogas antirretrovirais. Neste trabalho é apresentado um estudo comparativo sobre a utilização de diferentes atributos na predição da resposta de pacientes recém infectados pelo HIV-1 ao tratamento com antirretrovirais. Foram utilizados diferentes conjuntos de atributos para o treinamento de quatro modelos de classi cação. A partir desses conjuntos de atributos foram realizadas três etapas de testes que envolveram a avaliação do impacto do desbalanceamento das bases no resultado dos modelos de classi cação, a análise da importância de cada grupo de atributos e, por m, uma etapa de seleção de atributos. A partir da avaliação do impacto do desbalanceamento nas bases de dados pode-se observar que uma etapa de balanceamento ajudou na obtenção de resultados mais equilibrados entre as duas classes do problema de classi cação em questão. Por sua vez a análise da importância dos diferentes grupos de atributos demonstrou que os melhores resultados de predição foram obtidos para os atributos que representam os níveis de resistência dos pacientes às drogas antirretrovirais. Por m, as bases de dados obtidas após uma fase de seleção de atributos apresentaram melhores resultados de predição quando compostas por um conjunto variado de atributos. Nesta etapa dos testes foi possível observar novamente a importância dos atributos de nível de resistência, bem como a importância de um atributo que representa o tamanho de uma determinada proteína do HIV.
publishDate 2012
dc.date.issued.fl_str_mv 2012
dc.date.accessioned.fl_str_mv 2013-02-15T17:46:44Z
dc.date.available.fl_str_mv 2013-02-15T17:46:44Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv OLIVEIRA, S. E. L. de. Identificação de atributos relevantes em sequências de protease e transcriptase reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas antirretrovirais. 2012. 70 f. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Ouro Preto, Ouro Preto, 2012.
dc.identifier.uri.fl_str_mv http://www.repositorio.ufop.br/handle/123456789/2175
identifier_str_mv OLIVEIRA, S. E. L. de. Identificação de atributos relevantes em sequências de protease e transcriptase reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas antirretrovirais. 2012. 70 f. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Ouro Preto, Ouro Preto, 2012.
url http://www.repositorio.ufop.br/handle/123456789/2175
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Programa de Pós-Graduação em Ciência da Computação. Departamento de Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.
publisher.none.fl_str_mv Programa de Pós-Graduação em Ciência da Computação. Departamento de Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFOP
instname:Universidade Federal de Ouro Preto (UFOP)
instacron:UFOP
instname_str Universidade Federal de Ouro Preto (UFOP)
instacron_str UFOP
institution UFOP
reponame_str Repositório Institucional da UFOP
collection Repositório Institucional da UFOP
bitstream.url.fl_str_mv http://www.repositorio.ufop.br/bitstream/123456789/2175/2/license.txt
http://www.repositorio.ufop.br/bitstream/123456789/2175/1/DISSERTA%c3%87%c3%83O_Identifica%c3%a7%c3%a3oAtributosRelevantes.pdf
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
5206c912a9ae2095c02856a28d343ef0
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFOP - Universidade Federal de Ouro Preto (UFOP)
repository.mail.fl_str_mv repositorio@ufop.edu.br
_version_ 1801685720732008448