Métodos de biclustering no problema da selecção de genes

Marques, André Alexandre Sebastião

Métodos de biclustering no problema da selecção de genes

Detalhes bibliográficos
Autor(a) principal:	Marques, André Alexandre Sebastião
Data de Publicação:	2009
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10773/9454
Resumo:	Com o desenvolvimento da tecnologia de microarrays nos últimos anos, tornou-se possível a monitorização simultânea do nível de expressão de milhares de genes, permitindo o avanço na investigação e identificação de genes associados a tecidos cancerígenos. Através do uso desta tecnologia, tornou-se um desafio extrair conhecimento relevante, especialmente do ponto de vista biológico, do enorme volume de dados acumulados a partir destas experiências. No entanto, devido à grande dimensionalidade, a análise deste tipo de dados torna-se inviável utilizando meios computacionais convencionais, pelo que técnicas de aprendizagem automática se apresentam como soluções bastante promissoras. Como provado em diferentes estudos, um pequeno subconjunto de genes altamente discriminativos é suficiente para construir classificadores bastante precisos. Consequentemente, o problema de selecção de genes é um dos problemas mais desafiantes no problema de classificação de cancro utilizando dados de microarrays. Com base em matrizes de níveis de expressão genética de genes sob diferentes condições experimentais, têm sido propostas metodologias de identificação de grupos homogéneos nestas usando métodos de biclustering. A aplicação de técnicas de biclustering pode ser uma mais valia para a determinação de genes que possam ser relevantes no diagnóstico de certos tipos de cancro. No presente trabalho é apresentada uma abordagem ao problema de selecção de atributos baseada em métodos de biclustering combinados com uma heurística, que a partir dos biclusters resultantes, permite seleccionar um conjunto de atributos que melhor discriminam as classes. Estes métodos são posteriormente combinados com outras técnicas de selecção de atributos com o intuito de seleccionar subconjuntos de atributos (genes) altamente discriminativos presentes no conjunto de dados iniciais. Para a sua avaliação são apresentados os resultados de um estudo experimental sobre determinadas bases de dados pré-processadas a partir de uma base de dados brutos provenientes de um estudo sobre o cancro Lymphoma. Os resultados são analisados em termos da capacidade preditiva de um classificador de Máquinas de Suporte Vectorial, induzido por um subconjunto de genes seleccionado, através de validação cruzada leave-one-out.

Metadados do item

id	RCAP_9e076123ed7809b2b0f30e21b36d81fe
oai_identifier_str	oai:ria.ua.pt:10773/9454
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Métodos de biclustering no problema da selecção de genesMatemática aplicadaAprendizagem automáticaTecidos (Biologia) - PatologiaCancroCom o desenvolvimento da tecnologia de microarrays nos últimos anos, tornou-se possível a monitorização simultânea do nível de expressão de milhares de genes, permitindo o avanço na investigação e identificação de genes associados a tecidos cancerígenos. Através do uso desta tecnologia, tornou-se um desafio extrair conhecimento relevante, especialmente do ponto de vista biológico, do enorme volume de dados acumulados a partir destas experiências. No entanto, devido à grande dimensionalidade, a análise deste tipo de dados torna-se inviável utilizando meios computacionais convencionais, pelo que técnicas de aprendizagem automática se apresentam como soluções bastante promissoras. Como provado em diferentes estudos, um pequeno subconjunto de genes altamente discriminativos é suficiente para construir classificadores bastante precisos. Consequentemente, o problema de selecção de genes é um dos problemas mais desafiantes no problema de classificação de cancro utilizando dados de microarrays. Com base em matrizes de níveis de expressão genética de genes sob diferentes condições experimentais, têm sido propostas metodologias de identificação de grupos homogéneos nestas usando métodos de biclustering. A aplicação de técnicas de biclustering pode ser uma mais valia para a determinação de genes que possam ser relevantes no diagnóstico de certos tipos de cancro. No presente trabalho é apresentada uma abordagem ao problema de selecção de atributos baseada em métodos de biclustering combinados com uma heurística, que a partir dos biclusters resultantes, permite seleccionar um conjunto de atributos que melhor discriminam as classes. Estes métodos são posteriormente combinados com outras técnicas de selecção de atributos com o intuito de seleccionar subconjuntos de atributos (genes) altamente discriminativos presentes no conjunto de dados iniciais. Para a sua avaliação são apresentados os resultados de um estudo experimental sobre determinadas bases de dados pré-processadas a partir de uma base de dados brutos provenientes de um estudo sobre o cancro Lymphoma. Os resultados são analisados em termos da capacidade preditiva de um classificador de Máquinas de Suporte Vectorial, induzido por um subconjunto de genes seleccionado, através de validação cruzada leave-one-out.During recent years, the development of microarray technology has made possible to monitor the expression levels of thousands of genes simultaneously. Particularly, these techniques allow the identification of genes associated with cancerous tissues. The enormous volume of data generated from microarray experiences allows us to extract relevant biological knowledge, thus contributing to improve cancer diagnosis. However, due to the large number of genes involved, the analysis of microarray data is not feasible using conventional data analysis techniques, so that, machine learning and data mining techniques have been successfully applied in these analysis. Moreover, as shown in different studies, a small subset of highly discriminative genes is sufficient to build highly accurate classifiers. Thus, gene selection is one of the most challenging problem in microarray data analysis. On the other hand, biclustering of the gene expressing data aims to identify homogeneous groups into the matrices of expression levels of genes under different experimental conditions. Therefore, biclustering methods can be applied to determine relevant subsets of genes in the diagnosis of certain types of cancer. In this dissertation we present an approach to the problem of feature subset selection (FSS) based on biclustering. We also propose a heuristic that uses the resulting biclusters as input and provide a subset with the most promising attributes as output. These methods are then combined with other FSS techniques in order to find a small subset of highly discriminative genes. Finally, we present an experimental study using different datasets resulting from pre-processing the row data generated from a study of the Lymphoma cancer. The results are analyzed in terms of the predictive capability of a support vector machine induced from the subset of relevant genes using leave-one-out cross-validation.Universidade de Aveiro2013-01-04T11:55:35Z2009-01-01T00:00:00Z2009info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10773/9454porMarques, André Alexandre Sebastiãoinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-05-06T03:43:58Zoai:ria.ua.pt:10773/9454Portal AgregadorONGhttps://www.rcaap.pt/oai/openairemluisa.alvim@gmail.comopendoar:71602024-05-06T03:43:58Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Métodos de biclustering no problema da selecção de genes
title	Métodos de biclustering no problema da selecção de genes
spellingShingle	Métodos de biclustering no problema da selecção de genes Marques, André Alexandre Sebastião Matemática aplicada Aprendizagem automática Tecidos (Biologia) - Patologia Cancro
title_short	Métodos de biclustering no problema da selecção de genes
title_full	Métodos de biclustering no problema da selecção de genes
title_fullStr	Métodos de biclustering no problema da selecção de genes
title_full_unstemmed	Métodos de biclustering no problema da selecção de genes
title_sort	Métodos de biclustering no problema da selecção de genes
author	Marques, André Alexandre Sebastião
author_facet	Marques, André Alexandre Sebastião
author_role	author
dc.contributor.author.fl_str_mv	Marques, André Alexandre Sebastião
dc.subject.por.fl_str_mv	Matemática aplicada Aprendizagem automática Tecidos (Biologia) - Patologia Cancro
topic	Matemática aplicada Aprendizagem automática Tecidos (Biologia) - Patologia Cancro
description	Com o desenvolvimento da tecnologia de microarrays nos últimos anos, tornou-se possível a monitorização simultânea do nível de expressão de milhares de genes, permitindo o avanço na investigação e identificação de genes associados a tecidos cancerígenos. Através do uso desta tecnologia, tornou-se um desafio extrair conhecimento relevante, especialmente do ponto de vista biológico, do enorme volume de dados acumulados a partir destas experiências. No entanto, devido à grande dimensionalidade, a análise deste tipo de dados torna-se inviável utilizando meios computacionais convencionais, pelo que técnicas de aprendizagem automática se apresentam como soluções bastante promissoras. Como provado em diferentes estudos, um pequeno subconjunto de genes altamente discriminativos é suficiente para construir classificadores bastante precisos. Consequentemente, o problema de selecção de genes é um dos problemas mais desafiantes no problema de classificação de cancro utilizando dados de microarrays. Com base em matrizes de níveis de expressão genética de genes sob diferentes condições experimentais, têm sido propostas metodologias de identificação de grupos homogéneos nestas usando métodos de biclustering. A aplicação de técnicas de biclustering pode ser uma mais valia para a determinação de genes que possam ser relevantes no diagnóstico de certos tipos de cancro. No presente trabalho é apresentada uma abordagem ao problema de selecção de atributos baseada em métodos de biclustering combinados com uma heurística, que a partir dos biclusters resultantes, permite seleccionar um conjunto de atributos que melhor discriminam as classes. Estes métodos são posteriormente combinados com outras técnicas de selecção de atributos com o intuito de seleccionar subconjuntos de atributos (genes) altamente discriminativos presentes no conjunto de dados iniciais. Para a sua avaliação são apresentados os resultados de um estudo experimental sobre determinadas bases de dados pré-processadas a partir de uma base de dados brutos provenientes de um estudo sobre o cancro Lymphoma. Os resultados são analisados em termos da capacidade preditiva de um classificador de Máquinas de Suporte Vectorial, induzido por um subconjunto de genes seleccionado, através de validação cruzada leave-one-out.
publishDate	2009
dc.date.none.fl_str_mv	2009-01-01T00:00:00Z 2009 2013-01-04T11:55:35Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10773/9454
url	http://hdl.handle.net/10773/9454
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade de Aveiro
publisher.none.fl_str_mv	Universidade de Aveiro
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv	mluisa.alvim@gmail.com
_version_	1817543478920347648

Métodos de biclustering no problema da selecção de genes

Registros relacionados