Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele

Arraz, Carlos Fernando da Silva

Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele

Detalhes bibliográficos
Autor(a) principal:	Arraz, Carlos Fernando da Silva
Data de Publicação:	2021
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/1822/73401
Resumo:	Dissertação de mestrado em Matemática e Computação

Metadados do item

id	RCAP_a1ade665319798ca27a78099af31b71f
oai_identifier_str	oai:repositorium.sdum.uminho.pt:1822/73401
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e peleClustering algorithms for identifying stomach, thyroid and skin cancer subtypesClusteringImportância de featuresSilhouette coefficientElbow methodDBITCGAmRNASubtipos de cancroSTADTHCASKCMFeature engineeringSilhouette coefficientCancer subtypesCiências Naturais::MatemáticasDissertação de mestrado em Matemática e ComputaçãoA análise da expressão genética é fundamental para o reconhecimento dos genes mais relevantes durante as interações celulares num organismo, principalmente quando estes genes estão relacionados com doenças. Para a realização de um estudo em larga escala acerca das mudanças na expressão genética é necessário encontrar um método, a fim de que este o faça minimizando a taxa de erro e desvio, num processo de aprendizagem contínua. Podemos dizer que uma das maiores conquistas científicas das últimas décadas em Bioinformática foi a introdução de métodos de sequenciamento genético de alto desempenho, a possibilitar a visualização da dinâmica das células a nível molecular, como se fossem sensores capazes de fornecer informações preciosas sobre o funcionamento de um sistema vivo. Em 2020, já temos um nível relativamente de baixo custo para o sequenciamento, potencializando a investigação acerca da presença e quantidade de RNA (ou melhor dizendo, marcas do DNA) numa amostra biológica num determinado espaço temporal. Além disso, a introdução de novas técnicas analíticas trouxe “insights” sobre pesquisa biológica e médica. Desta forma, muitos tratamentos poderão, num futuro breve, ser customizados de acordo com a assinatura genética de cada indivíduo, com muito mais eficiência e menos efeitos colaterais. O processo de Mineração de Dados (Data Mining) consiste na extração automática de padrões que representam algum conhecimento inerente a um fenómeno. Em especial, a Clustering Analysis, aplicada neste projeto para a identificação de subtipos de cancro na fase inicial (tumor primário), busca através da aplicação de Machine Learning o reconhecimento de padrões até então desconhecidos. A proposta de trabalho foi a recolha de dados oriundos do Projeto Atlas do Genoma do Câncer (TCGA). Os datasets foram reduzidos (de milhares de genes para apenas algumas dezenas, em alguns casos) e os genes foram combinados para avaliar a qualidade na formação dos clusters ou a accuracy na classificação supervisionada em diversos cenários, revelando resultados promissores e coerentes com a literatura nesta área de investigação. O objetivo central deste trabalho foi obter resultados que corroborassem com as classificações moleculares atuais e/ou descobrir novos subtipos de cancro, principalmente onde há ainda alguma dificuldade/indecisão na identificação destes subtipos, como por exemplo, os cancros de estômago, tiroide e pele. Através de técnicas de seleção de features e de classificação supervisionada e não supervisionada, foi possível avaliar a existência de grupos significativamente diferentes e caracterizá-los em alguns casos.The analysis of gene expression is fundamental for the identification of the most relevant genes during cellular interactions in an organism, especially when these genes are related to diseases. To carry out a large-scale study on changes in gene expression, it is necessary to find a method, to minimize the error and deviation rate in a continuous learning process. We can say that one of the greatest scientific achievements of the last decades in Bioinformatics was the introduction of high-performance genetic sequencing methods, enabling the visualization of cell dynamics at the molecular level as if they were sensors capable of providing precious information about the functioning of a living system. In 2020, we already have a relatively low-cost level for sequencing, enhancing research into the presence and amount of RNA (or rather, DNA marks) in a biological sample in a given time frame. Besides, the introduction of new analytical techniques brought us “insights” about biological and medical research. In this way, many treatments may, soon, be cost-effective according to the genetic signature of each individual, with much more efficiency and fewer side effects. The Data Mining process consists of the automatic extraction of patterns that represent some knowledge inherent to a phenomenon. In particular, Clustering Analysis, applied in this dissertation for the identification of cancer subtypes in begining stage (primary stage), which seeks, through the application of Machine Learning, the recognition of previously unknown patterns. The work proposal made usage of data from the Atlas Project of the Cancer Genome (TCGA). Datasets have been reduced (from thousands of genes to just a few dozen in some cases) and genes have been combined to assess quality when cluster formation or accuracy in supervised classification in various settings, revealing promising results that are consistent with the literature in this area of research. The main objective of this work was to obtain results that corroborate with the current molecular classifications and/or discover new subtypes of cancer, especially where there is still some difficulty/indecision in the identification of these subtypes, such as stomach, thyroid and skin cancers. Through feature engineering techniques and supervised and unsupervised classification, it was possible to assess the existence of significantly different groups and characterize them in some cases.Moreira, Carla Maria Gonçalves MacedoBrito, IreneUniversidade do MinhoArraz, Carlos Fernando da Silva20212021-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/73401por202732223info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:17:05Zoai:repositorium.sdum.uminho.pt:1822/73401Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:09:38.787675Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele Clustering algorithms for identifying stomach, thyroid and skin cancer subtypes
title	Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele
spellingShingle	Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele Arraz, Carlos Fernando da Silva Clustering Importância de features Silhouette coefficient Elbow method DBI TCGA mRNA Subtipos de cancro STAD THCA SKCM Feature engineering Silhouette coefficient Cancer subtypes Ciências Naturais::Matemáticas
title_short	Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele
title_full	Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele
title_fullStr	Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele
title_full_unstemmed	Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele
title_sort	Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele
author	Arraz, Carlos Fernando da Silva
author_facet	Arraz, Carlos Fernando da Silva
author_role	author
dc.contributor.none.fl_str_mv	Moreira, Carla Maria Gonçalves Macedo Brito, Irene Universidade do Minho
dc.contributor.author.fl_str_mv	Arraz, Carlos Fernando da Silva
dc.subject.por.fl_str_mv	Clustering Importância de features Silhouette coefficient Elbow method DBI TCGA mRNA Subtipos de cancro STAD THCA SKCM Feature engineering Silhouette coefficient Cancer subtypes Ciências Naturais::Matemáticas
topic	Clustering Importância de features Silhouette coefficient Elbow method DBI TCGA mRNA Subtipos de cancro STAD THCA SKCM Feature engineering Silhouette coefficient Cancer subtypes Ciências Naturais::Matemáticas
description	Dissertação de mestrado em Matemática e Computação
publishDate	2021
dc.date.none.fl_str_mv	2021 2021-01-01T00:00:00Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1822/73401
url	http://hdl.handle.net/1822/73401
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	202732223
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799132522275143680

Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele

Registros relacionados