Avaliação de metodologias de pré-processamento de dados de microarrays

Detalhes bibliográficos
Autor(a) principal: São Marcos, Ana Luísa Romão de
Data de Publicação: 2009
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10773/9480
Resumo: Esta dissertação surge no contexto da avaliação de metodologias de préprocessamento de dados de microarrays através do desempenho preditivo de modelos de classificação supervisionada. As experiências de microarrays envolvem muitos passos, desde a extracção do tecido em estudo, passando pela marcação do mesmo com compostos fluorescentes, scanning, processamento de imagem, entre outras. Cada uma dessas etapas pode introduzir variabilidade nos dados recolhidos e assim afectar a qualidade dos mesmos. Os métodos de pré-processamento de correcção de background (CB) e de normalização (NM) surgem da necessidade de remover as variações não desejadas mantendo as variações biológicas intrínsecas aos dados. Para o presente trabalho foi realizado um estudo experimental onde foram aplicados aos dados vários métodos de CB e de NM, individualmente ou em conjunto, com a finalidade de avaliar o contributo destas metodologias no melhoramento da qualidade dos dados. Apresenta-se aqui uma avaliação de 36 métodos pré-processamento (resultantes de combinações de métodos de CB e de NM) com base no desempenho preditivo de dois modelos de classificação, k-Vizinhos mais Próximos (k-NN) e Maquinas de Suporte Vectorial (MSV). Estes modelos são induzidos de três bases de dados públicas de microarrays de ADNcomplementar, onde um par de métodos de pré-processamento, constituído por um de CB e outro de NM, é aplicado. A capacidade preditiva dos dois modelos de classificação é medida em termos da taxa de erro obtida pelo método de validação cruzada leave-one-out. Em virtude da grande dimensão dos dados de microarrays, resultante de um elevado número de atributos (genes) envolvidos, o presente trabalho também inclui um estudo sobre o efeito da aplicação dos métodos de CB e de NM no desempenho preditivo de classificadores de MSV quando estes são induzidos de dados constituídos apenas por subconjuntos de genes altamente discriminativos.
id RCAP_75f55dc51388a441e4f949a575b69c84
oai_identifier_str oai:ria.ua.pt:10773/9480
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Avaliação de metodologias de pré-processamento de dados de microarraysMatemática aplicadaMicromatrizes de ADN - Métodos estatísticosExpressão genéticaBioinformáticaEsta dissertação surge no contexto da avaliação de metodologias de préprocessamento de dados de microarrays através do desempenho preditivo de modelos de classificação supervisionada. As experiências de microarrays envolvem muitos passos, desde a extracção do tecido em estudo, passando pela marcação do mesmo com compostos fluorescentes, scanning, processamento de imagem, entre outras. Cada uma dessas etapas pode introduzir variabilidade nos dados recolhidos e assim afectar a qualidade dos mesmos. Os métodos de pré-processamento de correcção de background (CB) e de normalização (NM) surgem da necessidade de remover as variações não desejadas mantendo as variações biológicas intrínsecas aos dados. Para o presente trabalho foi realizado um estudo experimental onde foram aplicados aos dados vários métodos de CB e de NM, individualmente ou em conjunto, com a finalidade de avaliar o contributo destas metodologias no melhoramento da qualidade dos dados. Apresenta-se aqui uma avaliação de 36 métodos pré-processamento (resultantes de combinações de métodos de CB e de NM) com base no desempenho preditivo de dois modelos de classificação, k-Vizinhos mais Próximos (k-NN) e Maquinas de Suporte Vectorial (MSV). Estes modelos são induzidos de três bases de dados públicas de microarrays de ADNcomplementar, onde um par de métodos de pré-processamento, constituído por um de CB e outro de NM, é aplicado. A capacidade preditiva dos dois modelos de classificação é medida em termos da taxa de erro obtida pelo método de validação cruzada leave-one-out. Em virtude da grande dimensão dos dados de microarrays, resultante de um elevado número de atributos (genes) envolvidos, o presente trabalho também inclui um estudo sobre o efeito da aplicação dos métodos de CB e de NM no desempenho preditivo de classificadores de MSV quando estes são induzidos de dados constituídos apenas por subconjuntos de genes altamente discriminativos.This dissertation addresses the problem of evaluating preprocessing methodologies in terms of the predictive performance of supervised classification models induced from microarray data. Microarray experiments involve many steps, from the extraction of the tissue in study, through its labeling with fluorescent dyes, scanning and image processing, among others. Each of these stages can introduce variability in the data collected and thus affect their quality. Preprocessing methods such as background correction (BC) techniques and normalization (NM) strategies have arisen from the need to remove the unnecessary variation while the intrinsic biological variations of the data are retained. In this work an experimental study has been carried out where various BC and NM methods have been employed on the data, individually or in combination, with the goal of assessing the contribution of these approaches to the improvement of the quality of the data. Herein is presented an evaluation of 36 preprocessing methods (resulting from combinations of BC and NM methods) in terms of the predictive performance of two classification models, k-Nearest Neighbours (k-NN) and Support Vector Machines (SVM). These models are induced from three publicly available cDNA microarray data sets, where a pair of preprocessing strategies, composed of a BC technique and a NM method, is employed. The predictive performance of both classifiers is measured on grounds of the error rate obtained by the leave-one-out cross validation method. Due to the high dimensionality of microarray data, resulting from a large number of attributes (genes) involved, this dissertation also includes a study about the effect of the application of BC and NM methods on the predictive performance of SVM classifiers when these are induced from data consisting of only subsets of highly discriminative genes.Universidade de Aveiro2013-01-11T17:54:10Z2009-01-01T00:00:00Z2009info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10773/9480porSão Marcos, Ana Luísa Romão deinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-02-22T11:16:13Zoai:ria.ua.pt:10773/9480Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T02:46:18.604286Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Avaliação de metodologias de pré-processamento de dados de microarrays
title Avaliação de metodologias de pré-processamento de dados de microarrays
spellingShingle Avaliação de metodologias de pré-processamento de dados de microarrays
São Marcos, Ana Luísa Romão de
Matemática aplicada
Micromatrizes de ADN - Métodos estatísticos
Expressão genética
Bioinformática
title_short Avaliação de metodologias de pré-processamento de dados de microarrays
title_full Avaliação de metodologias de pré-processamento de dados de microarrays
title_fullStr Avaliação de metodologias de pré-processamento de dados de microarrays
title_full_unstemmed Avaliação de metodologias de pré-processamento de dados de microarrays
title_sort Avaliação de metodologias de pré-processamento de dados de microarrays
author São Marcos, Ana Luísa Romão de
author_facet São Marcos, Ana Luísa Romão de
author_role author
dc.contributor.author.fl_str_mv São Marcos, Ana Luísa Romão de
dc.subject.por.fl_str_mv Matemática aplicada
Micromatrizes de ADN - Métodos estatísticos
Expressão genética
Bioinformática
topic Matemática aplicada
Micromatrizes de ADN - Métodos estatísticos
Expressão genética
Bioinformática
description Esta dissertação surge no contexto da avaliação de metodologias de préprocessamento de dados de microarrays através do desempenho preditivo de modelos de classificação supervisionada. As experiências de microarrays envolvem muitos passos, desde a extracção do tecido em estudo, passando pela marcação do mesmo com compostos fluorescentes, scanning, processamento de imagem, entre outras. Cada uma dessas etapas pode introduzir variabilidade nos dados recolhidos e assim afectar a qualidade dos mesmos. Os métodos de pré-processamento de correcção de background (CB) e de normalização (NM) surgem da necessidade de remover as variações não desejadas mantendo as variações biológicas intrínsecas aos dados. Para o presente trabalho foi realizado um estudo experimental onde foram aplicados aos dados vários métodos de CB e de NM, individualmente ou em conjunto, com a finalidade de avaliar o contributo destas metodologias no melhoramento da qualidade dos dados. Apresenta-se aqui uma avaliação de 36 métodos pré-processamento (resultantes de combinações de métodos de CB e de NM) com base no desempenho preditivo de dois modelos de classificação, k-Vizinhos mais Próximos (k-NN) e Maquinas de Suporte Vectorial (MSV). Estes modelos são induzidos de três bases de dados públicas de microarrays de ADNcomplementar, onde um par de métodos de pré-processamento, constituído por um de CB e outro de NM, é aplicado. A capacidade preditiva dos dois modelos de classificação é medida em termos da taxa de erro obtida pelo método de validação cruzada leave-one-out. Em virtude da grande dimensão dos dados de microarrays, resultante de um elevado número de atributos (genes) envolvidos, o presente trabalho também inclui um estudo sobre o efeito da aplicação dos métodos de CB e de NM no desempenho preditivo de classificadores de MSV quando estes são induzidos de dados constituídos apenas por subconjuntos de genes altamente discriminativos.
publishDate 2009
dc.date.none.fl_str_mv 2009-01-01T00:00:00Z
2009
2013-01-11T17:54:10Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10773/9480
url http://hdl.handle.net/10773/9480
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade de Aveiro
publisher.none.fl_str_mv Universidade de Aveiro
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799137515227054080