Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/1822/73401 |
Resumo: | Dissertação de mestrado em Matemática e Computação |
id |
RCAP_a1ade665319798ca27a78099af31b71f |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/73401 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e peleClustering algorithms for identifying stomach, thyroid and skin cancer subtypesClusteringImportância de featuresSilhouette coefficientElbow methodDBITCGAmRNASubtipos de cancroSTADTHCASKCMFeature engineeringSilhouette coefficientCancer subtypesCiências Naturais::MatemáticasDissertação de mestrado em Matemática e ComputaçãoA análise da expressão genética é fundamental para o reconhecimento dos genes mais relevantes durante as interações celulares num organismo, principalmente quando estes genes estão relacionados com doenças. Para a realização de um estudo em larga escala acerca das mudanças na expressão genética é necessário encontrar um método, a fim de que este o faça minimizando a taxa de erro e desvio, num processo de aprendizagem contínua. Podemos dizer que uma das maiores conquistas científicas das últimas décadas em Bioinformática foi a introdução de métodos de sequenciamento genético de alto desempenho, a possibilitar a visualização da dinâmica das células a nível molecular, como se fossem sensores capazes de fornecer informações preciosas sobre o funcionamento de um sistema vivo. Em 2020, já temos um nível relativamente de baixo custo para o sequenciamento, potencializando a investigação acerca da presença e quantidade de RNA (ou melhor dizendo, marcas do DNA) numa amostra biológica num determinado espaço temporal. Além disso, a introdução de novas técnicas analíticas trouxe “insights” sobre pesquisa biológica e médica. Desta forma, muitos tratamentos poderão, num futuro breve, ser customizados de acordo com a assinatura genética de cada indivíduo, com muito mais eficiência e menos efeitos colaterais. O processo de Mineração de Dados (Data Mining) consiste na extração automática de padrões que representam algum conhecimento inerente a um fenómeno. Em especial, a Clustering Analysis, aplicada neste projeto para a identificação de subtipos de cancro na fase inicial (tumor primário), busca através da aplicação de Machine Learning o reconhecimento de padrões até então desconhecidos. A proposta de trabalho foi a recolha de dados oriundos do Projeto Atlas do Genoma do Câncer (TCGA). Os datasets foram reduzidos (de milhares de genes para apenas algumas dezenas, em alguns casos) e os genes foram combinados para avaliar a qualidade na formação dos clusters ou a accuracy na classificação supervisionada em diversos cenários, revelando resultados promissores e coerentes com a literatura nesta área de investigação. O objetivo central deste trabalho foi obter resultados que corroborassem com as classificações moleculares atuais e/ou descobrir novos subtipos de cancro, principalmente onde há ainda alguma dificuldade/indecisão na identificação destes subtipos, como por exemplo, os cancros de estômago, tiroide e pele. Através de técnicas de seleção de features e de classificação supervisionada e não supervisionada, foi possível avaliar a existência de grupos significativamente diferentes e caracterizá-los em alguns casos.The analysis of gene expression is fundamental for the identification of the most relevant genes during cellular interactions in an organism, especially when these genes are related to diseases. To carry out a large-scale study on changes in gene expression, it is necessary to find a method, to minimize the error and deviation rate in a continuous learning process. We can say that one of the greatest scientific achievements of the last decades in Bioinformatics was the introduction of high-performance genetic sequencing methods, enabling the visualization of cell dynamics at the molecular level as if they were sensors capable of providing precious information about the functioning of a living system. In 2020, we already have a relatively low-cost level for sequencing, enhancing research into the presence and amount of RNA (or rather, DNA marks) in a biological sample in a given time frame. Besides, the introduction of new analytical techniques brought us “insights” about biological and medical research. In this way, many treatments may, soon, be cost-effective according to the genetic signature of each individual, with much more efficiency and fewer side effects. The Data Mining process consists of the automatic extraction of patterns that represent some knowledge inherent to a phenomenon. In particular, Clustering Analysis, applied in this dissertation for the identification of cancer subtypes in begining stage (primary stage), which seeks, through the application of Machine Learning, the recognition of previously unknown patterns. The work proposal made usage of data from the Atlas Project of the Cancer Genome (TCGA). Datasets have been reduced (from thousands of genes to just a few dozen in some cases) and genes have been combined to assess quality when cluster formation or accuracy in supervised classification in various settings, revealing promising results that are consistent with the literature in this area of research. The main objective of this work was to obtain results that corroborate with the current molecular classifications and/or discover new subtypes of cancer, especially where there is still some difficulty/indecision in the identification of these subtypes, such as stomach, thyroid and skin cancers. Through feature engineering techniques and supervised and unsupervised classification, it was possible to assess the existence of significantly different groups and characterize them in some cases.Moreira, Carla Maria Gonçalves MacedoBrito, IreneUniversidade do MinhoArraz, Carlos Fernando da Silva20212021-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/73401por202732223info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:17:05Zoai:repositorium.sdum.uminho.pt:1822/73401Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:09:38.787675Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele Clustering algorithms for identifying stomach, thyroid and skin cancer subtypes |
title |
Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele |
spellingShingle |
Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele Arraz, Carlos Fernando da Silva Clustering Importância de features Silhouette coefficient Elbow method DBI TCGA mRNA Subtipos de cancro STAD THCA SKCM Feature engineering Silhouette coefficient Cancer subtypes Ciências Naturais::Matemáticas |
title_short |
Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele |
title_full |
Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele |
title_fullStr |
Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele |
title_full_unstemmed |
Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele |
title_sort |
Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele |
author |
Arraz, Carlos Fernando da Silva |
author_facet |
Arraz, Carlos Fernando da Silva |
author_role |
author |
dc.contributor.none.fl_str_mv |
Moreira, Carla Maria Gonçalves Macedo Brito, Irene Universidade do Minho |
dc.contributor.author.fl_str_mv |
Arraz, Carlos Fernando da Silva |
dc.subject.por.fl_str_mv |
Clustering Importância de features Silhouette coefficient Elbow method DBI TCGA mRNA Subtipos de cancro STAD THCA SKCM Feature engineering Silhouette coefficient Cancer subtypes Ciências Naturais::Matemáticas |
topic |
Clustering Importância de features Silhouette coefficient Elbow method DBI TCGA mRNA Subtipos de cancro STAD THCA SKCM Feature engineering Silhouette coefficient Cancer subtypes Ciências Naturais::Matemáticas |
description |
Dissertação de mestrado em Matemática e Computação |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021 2021-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1822/73401 |
url |
http://hdl.handle.net/1822/73401 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
202732223 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799132522275143680 |