Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele

Detalhes bibliográficos
Autor(a) principal: Arraz, Carlos Fernando da Silva
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/1822/73401
Resumo: Dissertação de mestrado em Matemática e Computação
id RCAP_a1ade665319798ca27a78099af31b71f
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/73401
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e peleClustering algorithms for identifying stomach, thyroid and skin cancer subtypesClusteringImportância de featuresSilhouette coefficientElbow methodDBITCGAmRNASubtipos de cancroSTADTHCASKCMFeature engineeringSilhouette coefficientCancer subtypesCiências Naturais::MatemáticasDissertação de mestrado em Matemática e ComputaçãoA análise da expressão genética é fundamental para o reconhecimento dos genes mais relevantes durante as interações celulares num organismo, principalmente quando estes genes estão relacionados com doenças. Para a realização de um estudo em larga escala acerca das mudanças na expressão genética é necessário encontrar um método, a fim de que este o faça minimizando a taxa de erro e desvio, num processo de aprendizagem contínua. Podemos dizer que uma das maiores conquistas científicas das últimas décadas em Bioinformática foi a introdução de métodos de sequenciamento genético de alto desempenho, a possibilitar a visualização da dinâmica das células a nível molecular, como se fossem sensores capazes de fornecer informações preciosas sobre o funcionamento de um sistema vivo. Em 2020, já temos um nível relativamente de baixo custo para o sequenciamento, potencializando a investigação acerca da presença e quantidade de RNA (ou melhor dizendo, marcas do DNA) numa amostra biológica num determinado espaço temporal. Além disso, a introdução de novas técnicas analíticas trouxe “insights” sobre pesquisa biológica e médica. Desta forma, muitos tratamentos poderão, num futuro breve, ser customizados de acordo com a assinatura genética de cada indivíduo, com muito mais eficiência e menos efeitos colaterais. O processo de Mineração de Dados (Data Mining) consiste na extração automática de padrões que representam algum conhecimento inerente a um fenómeno. Em especial, a Clustering Analysis, aplicada neste projeto para a identificação de subtipos de cancro na fase inicial (tumor primário), busca através da aplicação de Machine Learning o reconhecimento de padrões até então desconhecidos. A proposta de trabalho foi a recolha de dados oriundos do Projeto Atlas do Genoma do Câncer (TCGA). Os datasets foram reduzidos (de milhares de genes para apenas algumas dezenas, em alguns casos) e os genes foram combinados para avaliar a qualidade na formação dos clusters ou a accuracy na classificação supervisionada em diversos cenários, revelando resultados promissores e coerentes com a literatura nesta área de investigação. O objetivo central deste trabalho foi obter resultados que corroborassem com as classificações moleculares atuais e/ou descobrir novos subtipos de cancro, principalmente onde há ainda alguma dificuldade/indecisão na identificação destes subtipos, como por exemplo, os cancros de estômago, tiroide e pele. Através de técnicas de seleção de features e de classificação supervisionada e não supervisionada, foi possível avaliar a existência de grupos significativamente diferentes e caracterizá-los em alguns casos.The analysis of gene expression is fundamental for the identification of the most relevant genes during cellular interactions in an organism, especially when these genes are related to diseases. To carry out a large-scale study on changes in gene expression, it is necessary to find a method, to minimize the error and deviation rate in a continuous learning process. We can say that one of the greatest scientific achievements of the last decades in Bioinformatics was the introduction of high-performance genetic sequencing methods, enabling the visualization of cell dynamics at the molecular level as if they were sensors capable of providing precious information about the functioning of a living system. In 2020, we already have a relatively low-cost level for sequencing, enhancing research into the presence and amount of RNA (or rather, DNA marks) in a biological sample in a given time frame. Besides, the introduction of new analytical techniques brought us “insights” about biological and medical research. In this way, many treatments may, soon, be cost-effective according to the genetic signature of each individual, with much more efficiency and fewer side effects. The Data Mining process consists of the automatic extraction of patterns that represent some knowledge inherent to a phenomenon. In particular, Clustering Analysis, applied in this dissertation for the identification of cancer subtypes in begining stage (primary stage), which seeks, through the application of Machine Learning, the recognition of previously unknown patterns. The work proposal made usage of data from the Atlas Project of the Cancer Genome (TCGA). Datasets have been reduced (from thousands of genes to just a few dozen in some cases) and genes have been combined to assess quality when cluster formation or accuracy in supervised classification in various settings, revealing promising results that are consistent with the literature in this area of research. The main objective of this work was to obtain results that corroborate with the current molecular classifications and/or discover new subtypes of cancer, especially where there is still some difficulty/indecision in the identification of these subtypes, such as stomach, thyroid and skin cancers. Through feature engineering techniques and supervised and unsupervised classification, it was possible to assess the existence of significantly different groups and characterize them in some cases.Moreira, Carla Maria Gonçalves MacedoBrito, IreneUniversidade do MinhoArraz, Carlos Fernando da Silva20212021-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/73401por202732223info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:17:05Zoai:repositorium.sdum.uminho.pt:1822/73401Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:09:38.787675Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele
Clustering algorithms for identifying stomach, thyroid and skin cancer subtypes
title Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele
spellingShingle Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele
Arraz, Carlos Fernando da Silva
Clustering
Importância de features
Silhouette coefficient
Elbow method
DBI
TCGA
mRNA
Subtipos de cancro
STAD
THCA
SKCM
Feature engineering
Silhouette coefficient
Cancer subtypes
Ciências Naturais::Matemáticas
title_short Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele
title_full Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele
title_fullStr Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele
title_full_unstemmed Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele
title_sort Algoritmos de clustering para identificação de subtipos de cancro do estômago, tiroide e pele
author Arraz, Carlos Fernando da Silva
author_facet Arraz, Carlos Fernando da Silva
author_role author
dc.contributor.none.fl_str_mv Moreira, Carla Maria Gonçalves Macedo
Brito, Irene
Universidade do Minho
dc.contributor.author.fl_str_mv Arraz, Carlos Fernando da Silva
dc.subject.por.fl_str_mv Clustering
Importância de features
Silhouette coefficient
Elbow method
DBI
TCGA
mRNA
Subtipos de cancro
STAD
THCA
SKCM
Feature engineering
Silhouette coefficient
Cancer subtypes
Ciências Naturais::Matemáticas
topic Clustering
Importância de features
Silhouette coefficient
Elbow method
DBI
TCGA
mRNA
Subtipos de cancro
STAD
THCA
SKCM
Feature engineering
Silhouette coefficient
Cancer subtypes
Ciências Naturais::Matemáticas
description Dissertação de mestrado em Matemática e Computação
publishDate 2021
dc.date.none.fl_str_mv 2021
2021-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1822/73401
url http://hdl.handle.net/1822/73401
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 202732223
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132522275143680