Métodos de biclustering no problema da selecção de genes

Detalhes bibliográficos
Autor(a) principal: Marques, André Alexandre Sebastião
Data de Publicação: 2009
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10773/9454
Resumo: Com o desenvolvimento da tecnologia de microarrays nos últimos anos, tornou-se possível a monitorização simultânea do nível de expressão de milhares de genes, permitindo o avanço na investigação e identificação de genes associados a tecidos cancerígenos. Através do uso desta tecnologia, tornou-se um desafio extrair conhecimento relevante, especialmente do ponto de vista biológico, do enorme volume de dados acumulados a partir destas experiências. No entanto, devido à grande dimensionalidade, a análise deste tipo de dados torna-se inviável utilizando meios computacionais convencionais, pelo que técnicas de aprendizagem automática se apresentam como soluções bastante promissoras. Como provado em diferentes estudos, um pequeno subconjunto de genes altamente discriminativos é suficiente para construir classificadores bastante precisos. Consequentemente, o problema de selecção de genes é um dos problemas mais desafiantes no problema de classificação de cancro utilizando dados de microarrays. Com base em matrizes de níveis de expressão genética de genes sob diferentes condições experimentais, têm sido propostas metodologias de identificação de grupos homogéneos nestas usando métodos de biclustering. A aplicação de técnicas de biclustering pode ser uma mais valia para a determinação de genes que possam ser relevantes no diagnóstico de certos tipos de cancro. No presente trabalho é apresentada uma abordagem ao problema de selecção de atributos baseada em métodos de biclustering combinados com uma heurística, que a partir dos biclusters resultantes, permite seleccionar um conjunto de atributos que melhor discriminam as classes. Estes métodos são posteriormente combinados com outras técnicas de selecção de atributos com o intuito de seleccionar subconjuntos de atributos (genes) altamente discriminativos presentes no conjunto de dados iniciais. Para a sua avaliação são apresentados os resultados de um estudo experimental sobre determinadas bases de dados pré-processadas a partir de uma base de dados brutos provenientes de um estudo sobre o cancro Lymphoma. Os resultados são analisados em termos da capacidade preditiva de um classificador de Máquinas de Suporte Vectorial, induzido por um subconjunto de genes seleccionado, através de validação cruzada leave-one-out.
id RCAP_9e076123ed7809b2b0f30e21b36d81fe
oai_identifier_str oai:ria.ua.pt:10773/9454
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Métodos de biclustering no problema da selecção de genesMatemática aplicadaAprendizagem automáticaTecidos (Biologia) - PatologiaCancroCom o desenvolvimento da tecnologia de microarrays nos últimos anos, tornou-se possível a monitorização simultânea do nível de expressão de milhares de genes, permitindo o avanço na investigação e identificação de genes associados a tecidos cancerígenos. Através do uso desta tecnologia, tornou-se um desafio extrair conhecimento relevante, especialmente do ponto de vista biológico, do enorme volume de dados acumulados a partir destas experiências. No entanto, devido à grande dimensionalidade, a análise deste tipo de dados torna-se inviável utilizando meios computacionais convencionais, pelo que técnicas de aprendizagem automática se apresentam como soluções bastante promissoras. Como provado em diferentes estudos, um pequeno subconjunto de genes altamente discriminativos é suficiente para construir classificadores bastante precisos. Consequentemente, o problema de selecção de genes é um dos problemas mais desafiantes no problema de classificação de cancro utilizando dados de microarrays. Com base em matrizes de níveis de expressão genética de genes sob diferentes condições experimentais, têm sido propostas metodologias de identificação de grupos homogéneos nestas usando métodos de biclustering. A aplicação de técnicas de biclustering pode ser uma mais valia para a determinação de genes que possam ser relevantes no diagnóstico de certos tipos de cancro. No presente trabalho é apresentada uma abordagem ao problema de selecção de atributos baseada em métodos de biclustering combinados com uma heurística, que a partir dos biclusters resultantes, permite seleccionar um conjunto de atributos que melhor discriminam as classes. Estes métodos são posteriormente combinados com outras técnicas de selecção de atributos com o intuito de seleccionar subconjuntos de atributos (genes) altamente discriminativos presentes no conjunto de dados iniciais. Para a sua avaliação são apresentados os resultados de um estudo experimental sobre determinadas bases de dados pré-processadas a partir de uma base de dados brutos provenientes de um estudo sobre o cancro Lymphoma. Os resultados são analisados em termos da capacidade preditiva de um classificador de Máquinas de Suporte Vectorial, induzido por um subconjunto de genes seleccionado, através de validação cruzada leave-one-out.During recent years, the development of microarray technology has made possible to monitor the expression levels of thousands of genes simultaneously. Particularly, these techniques allow the identification of genes associated with cancerous tissues. The enormous volume of data generated from microarray experiences allows us to extract relevant biological knowledge, thus contributing to improve cancer diagnosis. However, due to the large number of genes involved, the analysis of microarray data is not feasible using conventional data analysis techniques, so that, machine learning and data mining techniques have been successfully applied in these analysis. Moreover, as shown in different studies, a small subset of highly discriminative genes is sufficient to build highly accurate classifiers. Thus, gene selection is one of the most challenging problem in microarray data analysis. On the other hand, biclustering of the gene expressing data aims to identify homogeneous groups into the matrices of expression levels of genes under different experimental conditions. Therefore, biclustering methods can be applied to determine relevant subsets of genes in the diagnosis of certain types of cancer. In this dissertation we present an approach to the problem of feature subset selection (FSS) based on biclustering. We also propose a heuristic that uses the resulting biclusters as input and provide a subset with the most promising attributes as output. These methods are then combined with other FSS techniques in order to find a small subset of highly discriminative genes. Finally, we present an experimental study using different datasets resulting from pre-processing the row data generated from a study of the Lymphoma cancer. The results are analyzed in terms of the predictive capability of a support vector machine induced from the subset of relevant genes using leave-one-out cross-validation.Universidade de Aveiro2013-01-04T11:55:35Z2009-01-01T00:00:00Z2009info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10773/9454porMarques, André Alexandre Sebastiãoinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-02-22T11:16:10Zoai:ria.ua.pt:10773/9454Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T02:46:17.624656Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Métodos de biclustering no problema da selecção de genes
title Métodos de biclustering no problema da selecção de genes
spellingShingle Métodos de biclustering no problema da selecção de genes
Marques, André Alexandre Sebastião
Matemática aplicada
Aprendizagem automática
Tecidos (Biologia) - Patologia
Cancro
title_short Métodos de biclustering no problema da selecção de genes
title_full Métodos de biclustering no problema da selecção de genes
title_fullStr Métodos de biclustering no problema da selecção de genes
title_full_unstemmed Métodos de biclustering no problema da selecção de genes
title_sort Métodos de biclustering no problema da selecção de genes
author Marques, André Alexandre Sebastião
author_facet Marques, André Alexandre Sebastião
author_role author
dc.contributor.author.fl_str_mv Marques, André Alexandre Sebastião
dc.subject.por.fl_str_mv Matemática aplicada
Aprendizagem automática
Tecidos (Biologia) - Patologia
Cancro
topic Matemática aplicada
Aprendizagem automática
Tecidos (Biologia) - Patologia
Cancro
description Com o desenvolvimento da tecnologia de microarrays nos últimos anos, tornou-se possível a monitorização simultânea do nível de expressão de milhares de genes, permitindo o avanço na investigação e identificação de genes associados a tecidos cancerígenos. Através do uso desta tecnologia, tornou-se um desafio extrair conhecimento relevante, especialmente do ponto de vista biológico, do enorme volume de dados acumulados a partir destas experiências. No entanto, devido à grande dimensionalidade, a análise deste tipo de dados torna-se inviável utilizando meios computacionais convencionais, pelo que técnicas de aprendizagem automática se apresentam como soluções bastante promissoras. Como provado em diferentes estudos, um pequeno subconjunto de genes altamente discriminativos é suficiente para construir classificadores bastante precisos. Consequentemente, o problema de selecção de genes é um dos problemas mais desafiantes no problema de classificação de cancro utilizando dados de microarrays. Com base em matrizes de níveis de expressão genética de genes sob diferentes condições experimentais, têm sido propostas metodologias de identificação de grupos homogéneos nestas usando métodos de biclustering. A aplicação de técnicas de biclustering pode ser uma mais valia para a determinação de genes que possam ser relevantes no diagnóstico de certos tipos de cancro. No presente trabalho é apresentada uma abordagem ao problema de selecção de atributos baseada em métodos de biclustering combinados com uma heurística, que a partir dos biclusters resultantes, permite seleccionar um conjunto de atributos que melhor discriminam as classes. Estes métodos são posteriormente combinados com outras técnicas de selecção de atributos com o intuito de seleccionar subconjuntos de atributos (genes) altamente discriminativos presentes no conjunto de dados iniciais. Para a sua avaliação são apresentados os resultados de um estudo experimental sobre determinadas bases de dados pré-processadas a partir de uma base de dados brutos provenientes de um estudo sobre o cancro Lymphoma. Os resultados são analisados em termos da capacidade preditiva de um classificador de Máquinas de Suporte Vectorial, induzido por um subconjunto de genes seleccionado, através de validação cruzada leave-one-out.
publishDate 2009
dc.date.none.fl_str_mv 2009-01-01T00:00:00Z
2009
2013-01-04T11:55:35Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10773/9454
url http://hdl.handle.net/10773/9454
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade de Aveiro
publisher.none.fl_str_mv Universidade de Aveiro
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799137514635657216