Whole-genome analysis of DNA methylation across cancer types reveals specific patterns in early stages

Detalhes bibliográficos
Autor(a) principal: Mestre, André Miguel Romeira
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.1/13567
Resumo: Dynamic variations in DNA methylation are known to play an important role in cancer development through modulation of gene expression. Here, were developed a mathematical structured model to identify patterns of differentially methylated genes (cDMGs), across different cancers types that can act as epigenetic diagnostic biomarkers. A Working Pipeline (WP), designed in R language, was applied to 8 cancer cohorts from The Cancer Genome Atlas (TCGA) aiming to analyze DNA methylation and gene expression alterations occurring during normal to stage I carcinogenic transition. WP has a principal component which was divided in four steps: 0. Clinical characterization of patients; 1. Identification of cDMGs; 2. Identification of genetic/epigenetic patterns across different cancer type; and 3. Identification of diagnostic predictors. Additionally, the WP had a second component containing two more complementary steps: 4. Identification of CpG probes that better predict gene expression and 5. HJ-Biplot approach to visualize genes or CpG probes and its association with sample distribution. Appling the principal component of the WP to TCGA cohorts, we identified 117 cDMGs in breast cancer, 307 in colorectal cancer, 99 in head and neck cancer, 156 in kidney clear cell cancer, 106 in kidney papillary cancer, 349 in liver cancer, 180 in lung cancer and 25 in thyroid cancer. Analysis of patterns across these cancers revealed that the majority of cDMGs are cancer-specific. Moreover, we found cDMGs to be good predictors of diagnosis. When considering specific biomarkers for each cancer, only 19, 153, 27, 93, 53, 72, 38 and 14 genes were found to be good diagnostic biomarkers in breast, colorectal, head and neck, kidneyR, kidneyP, liver, lung and thyroid cancers, respectively. Therefore, we developed a novel working pipeline that allowed data sets analyses available worldwide. Validation of this mathematical model evidences that normal-tumor transition is not a conserved process event across different cancers type, but specific to the cell of origin.
id RCAP_af71e9413a46e6bac75c7273af5f5af8
oai_identifier_str oai:sapientia.ualg.pt:10400.1/13567
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Whole-genome analysis of DNA methylation across cancer types reveals specific patterns in early stagesCancroMetilação de DNAExpressão genéticaBiomarcador de diagnóstico e análise computacionalDomínio/Área Científica::Ciências Médicas::Outras Ciências MédicasDynamic variations in DNA methylation are known to play an important role in cancer development through modulation of gene expression. Here, were developed a mathematical structured model to identify patterns of differentially methylated genes (cDMGs), across different cancers types that can act as epigenetic diagnostic biomarkers. A Working Pipeline (WP), designed in R language, was applied to 8 cancer cohorts from The Cancer Genome Atlas (TCGA) aiming to analyze DNA methylation and gene expression alterations occurring during normal to stage I carcinogenic transition. WP has a principal component which was divided in four steps: 0. Clinical characterization of patients; 1. Identification of cDMGs; 2. Identification of genetic/epigenetic patterns across different cancer type; and 3. Identification of diagnostic predictors. Additionally, the WP had a second component containing two more complementary steps: 4. Identification of CpG probes that better predict gene expression and 5. HJ-Biplot approach to visualize genes or CpG probes and its association with sample distribution. Appling the principal component of the WP to TCGA cohorts, we identified 117 cDMGs in breast cancer, 307 in colorectal cancer, 99 in head and neck cancer, 156 in kidney clear cell cancer, 106 in kidney papillary cancer, 349 in liver cancer, 180 in lung cancer and 25 in thyroid cancer. Analysis of patterns across these cancers revealed that the majority of cDMGs are cancer-specific. Moreover, we found cDMGs to be good predictors of diagnosis. When considering specific biomarkers for each cancer, only 19, 153, 27, 93, 53, 72, 38 and 14 genes were found to be good diagnostic biomarkers in breast, colorectal, head and neck, kidneyR, kidneyP, liver, lung and thyroid cancers, respectively. Therefore, we developed a novel working pipeline that allowed data sets analyses available worldwide. Validation of this mathematical model evidences that normal-tumor transition is not a conserved process event across different cancers type, but specific to the cell of origin.O cancro é descrito como um grupo de doenças altamente complexas caracterizadas pelo crescimento anormal e descontrolado de células com a capacidade de invadir outros tecidos. A vasta maioria das células presentes no organismo adulto apresentam o genoma completo, altamente regulado, de forma, a manter os padrões de atividade específica para cada tecido. Assim, os mecanismos que regulam esta atividade são importantes objetos de estudo no desenvolvimento de cancro, nomeadamente, a metilação do DNA. A metilação do DNA é um dos mecanismos epigenéticos mais estudados que ocorre pela adição de um grupo metil à sequência de DNA, modificando a função dos genes e influenciando a expressão genética. O cancro é maior causa de morbilidade e mortalidade no mundo, contando com 18.1 milhões de novos casos e 9.6 milhões de mortes. Salienta-se, que os cancros do pulmão, mama e colorretal apresentam a maior taxa de incidência. A presente dissertação teve como principais objetivos 1) criar um procedimento de trabalho, 2) identificar genes diferencialmente metilados associados a cancro (cDMGs), 3) identificar padrões de expressão/metilação entre diferentes tipos cancros e 4) identificar preditores de diagnóstico. Metodologicamente, foi criado um procedimento de trabalho que teve aplicação na análise do genoma completo das coortes do The Cancer Genome Atlas (TCGA). A análise enunciada utilizou dados de expressão genética (Illumina Hiseq) e metilação de DNA (Illumina HumanMethylation 450K array) para 8 coortes dos seguintes tipos de cancro: cancro da mama, cancro colorretal, cancro da cabeça e pescoço, cancro das células renais (cancro do rimR), cancro papilar do rim (cancro do rimP), cancro do fígado, cancro do pulmão e cancro da tiroide. Neste projeto, foram comparados dois grupos, tecido sólido adjacente e tumor primário em estadio I com 84 e 126 em cancro da mama, 21 e 54 em cancro colorretal, 20 e 27 em cancro da cabeça e pescoço, 24 e 155 em cancro do rimR, 23 e 167 em cancro do rimP, 41 e 171 em cancro do fígado, 21 e 245 em cancro do pulmão e 50 e 284 em cancro da tiroide, respetivamente. Os dados mencionados foram analisados através de linguagem de programação em R. Considerando os objetivos propostos, verificou-se que o primeiro objetivo é a chave para os restantes. O procedimento de trabalho foi estruturado com base em duas componentes distintas. A componente principal apresentou 4 fases: Fase 0 – Caracterização dos cohorts; Fase 1 – Identificar genes diferencialmente metilados associados a cancro; Fase 2 – Identificar padrões genéticos/epigenéticos entre diferentes tipos de cancro e Fase 3 – Identificar preditores de diagnóstico. Entretanto, a componente complementar apresentou 2 fases: Fase 4 – Identificar sítios de metilação com maior impacto na expressão e Fase 5 – Representação multivariada utilizando HJ-Biplot para visualizar genes ou sítios de metilação e a sua associação com a distribuição das amostras. Dentro da componente principal, a Fase 0 foi considerada opcional e teve como intuito caracterizar os pacientes da coorte utilizando as variáveis clínicas disponíveis para tal. As fases seguintes estiveram dependentes da existência de dados de expressão genética (Illumina HiSeq) e metilação de DNA (Illumina HumanMethylation 450K array), assim como, pacientes que apresentem ambas as amostras. Deste modo, ambas as bases de dados foram importadas no início da Fase 1, os genes e sítios de metilação foram sujeitos a um pré-processamento, seguido de um processo de testes inferenciais distribuídos por níveis. Após seleção de genes com diferenças significativas de expressão e sítios de metilação com diferenças significativas de metilação estabeleceu-se os pontos de corte (valor absoluto log2(Foldchange)>1.5 e valor absoluto Δβ>0.2). Assim, foram selecionados apenas genes e CpG com diferenças muito significativas com interesse de estudo. Posteriormente, o teste de correlação de Pearson avaliou a relação entre ambos e identificou os genes diferencialmente metilados associados a cancro. A Fase 2 procurou identificar padrões através da interseção das várias coortes. Por fim, a Fase 3 identificou os bons preditores de diagnóstico. De forma a complementar a análise, a Fase 4 utilizou os modelos lineares de regressão múltipla para identificar a metilação de sítios de metilação com maior impacto na expressão de gene. Entretanto, a Fase 5 procurou de forma multivariada identificar comportamentos de gene ou sítios de metilação com maior influência na distinção entre grupos e na distribuição das amostras. Através do procedimento de trabalho estabelecido, foram identificados nas coortes mama, colorretal, cabeça e pescoço, rimR, rimP, fígado, pulmão e tiroide, diferenças na expressão de 117, 307, 99, 156, 106, 349, 180 e 25 genes (valor absoluto de log2(Foldchange) > 1,5 e p-value ajustado (FDR)<0.05) e diferencialmente metiladas 368, 924, 292, 299, 224, 1453, 601 e 40 sítios de metilação (valor absoluto de Δβ>0,2 e p-value ajustado (FDR)<0.05), respetivamente, designados de cDMGs. Seguidamente, foi realizada uma análise de processo biológico que revelou a existência de enriquecimento de funções ligadas ao desenvolvimento e sistema nervoso. Entretanto, foi realizada uma análise anotação com objetivo de verificar quais dos cDMGs nunca foram reportados em cancro. Esta análise sugere que nas coortes acima mencionadas 18, 36, 13, 18, 15, 48, 20 e 3 genes, respetivamente, nunca foram mencionados com cancro. Por outro lado, 62, 150, 28, 27, 20, 94, 100 e 6 genes, respetivamente, já foram mencionados no cancro específico. Entretanto, os restantes já foram mencionados em cancro, mas não no cancro específico. De seguida, a intersecção dos genes ou sítios de metilação entre coortes mostrou que a maioria eram específicos para o tipo tumoral e apenas uma pequena quantidade deles tinham presença em mais de uma coorte. Assim, para as coortes da mama, colorretal, cabeça e pescoço, rimR, rimP, fígado, pulmão e tiroide, são específicos para a coorte 55, 202, 49, 100, 70, 240, 97 e 18 genes, respetivamente, e 261, 782, 223, 244, 189, 1339, 449 e 35 sítios de metilação, respetivamente. Seguidamente, foi realizada uma análise de vias de sinalização utilizando a base de dados Reactome que mostrou a cascata RAF/MAP quinase (p-value=8.01e-05) está muito presente em cancro colorretal, assim como, as interações L1CAM (p-value=0.004208). Adicionalmente, a ativação do recetor GABA A (p-value=0.026896) está enriquecido em cancro da cabeça e pescoço, os recetores péptido-ligando (p-value=0.006942) e a metilação de DNA (p-value=0.024459) em cancro do pulmão. Finalmente, os nossos resultados sugerem que o desenvolvimento de cancro em estadios precoces apresenta características intrínsecas ao tecido de origem. Por último, a análise de bons preditores de diagnóstico teve como objetivo identificar biomarcadores com capacidade de discriminar tecido normal e tumoral em estadios precoces. Os nossos resultados mostraram que nas coortes previamente mencionados existiram 45, 238, 57, 142, 88, 126, 88 e 18 genes, respetivamente, juntamente com 340, 835, 286, 299, 200, 1129, 595 e 38 sítios de metilação, respetivamente. Destes, 44, 153, 68, 173, 111, 261, 128 e 24, respetivamente pertenceram aos padrões específicos encontrados. Concluindo, nós criamos um procedimento de trabalho capaz de analisar bases de dados de todo o mundo. Como vimos, este estudo mostrou que o procedimento permitiu identificar diferenças de metilação significativas em estadios precoces. Estas alterações na sua grande maioria são específicas da transição normal-tumoral evidenciando que este evento não é conservado entre tipos de cancro, sugerindo que cada tecido apresenta características únicas do tipo de célula de origem.Marreiros, AnaCastelo-Branco, PedroSapientiaMestre, André Miguel Romeira2020-03-10T12:12:58Z2019-01-242019-01-24T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfapplication/pdfapplication/pdfapplication/pdfapplication/pdfapplication/pdfapplication/pdfapplication/pdfapplication/pdfapplication/pdfhttp://hdl.handle.net/10400.1/13567TID:202237168enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-24T10:25:42Zoai:sapientia.ualg.pt:10400.1/13567Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:04:43.582511Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Whole-genome analysis of DNA methylation across cancer types reveals specific patterns in early stages
title Whole-genome analysis of DNA methylation across cancer types reveals specific patterns in early stages
spellingShingle Whole-genome analysis of DNA methylation across cancer types reveals specific patterns in early stages
Mestre, André Miguel Romeira
Cancro
Metilação de DNA
Expressão genética
Biomarcador de diagnóstico e análise computacional
Domínio/Área Científica::Ciências Médicas::Outras Ciências Médicas
title_short Whole-genome analysis of DNA methylation across cancer types reveals specific patterns in early stages
title_full Whole-genome analysis of DNA methylation across cancer types reveals specific patterns in early stages
title_fullStr Whole-genome analysis of DNA methylation across cancer types reveals specific patterns in early stages
title_full_unstemmed Whole-genome analysis of DNA methylation across cancer types reveals specific patterns in early stages
title_sort Whole-genome analysis of DNA methylation across cancer types reveals specific patterns in early stages
author Mestre, André Miguel Romeira
author_facet Mestre, André Miguel Romeira
author_role author
dc.contributor.none.fl_str_mv Marreiros, Ana
Castelo-Branco, Pedro
Sapientia
dc.contributor.author.fl_str_mv Mestre, André Miguel Romeira
dc.subject.por.fl_str_mv Cancro
Metilação de DNA
Expressão genética
Biomarcador de diagnóstico e análise computacional
Domínio/Área Científica::Ciências Médicas::Outras Ciências Médicas
topic Cancro
Metilação de DNA
Expressão genética
Biomarcador de diagnóstico e análise computacional
Domínio/Área Científica::Ciências Médicas::Outras Ciências Médicas
description Dynamic variations in DNA methylation are known to play an important role in cancer development through modulation of gene expression. Here, were developed a mathematical structured model to identify patterns of differentially methylated genes (cDMGs), across different cancers types that can act as epigenetic diagnostic biomarkers. A Working Pipeline (WP), designed in R language, was applied to 8 cancer cohorts from The Cancer Genome Atlas (TCGA) aiming to analyze DNA methylation and gene expression alterations occurring during normal to stage I carcinogenic transition. WP has a principal component which was divided in four steps: 0. Clinical characterization of patients; 1. Identification of cDMGs; 2. Identification of genetic/epigenetic patterns across different cancer type; and 3. Identification of diagnostic predictors. Additionally, the WP had a second component containing two more complementary steps: 4. Identification of CpG probes that better predict gene expression and 5. HJ-Biplot approach to visualize genes or CpG probes and its association with sample distribution. Appling the principal component of the WP to TCGA cohorts, we identified 117 cDMGs in breast cancer, 307 in colorectal cancer, 99 in head and neck cancer, 156 in kidney clear cell cancer, 106 in kidney papillary cancer, 349 in liver cancer, 180 in lung cancer and 25 in thyroid cancer. Analysis of patterns across these cancers revealed that the majority of cDMGs are cancer-specific. Moreover, we found cDMGs to be good predictors of diagnosis. When considering specific biomarkers for each cancer, only 19, 153, 27, 93, 53, 72, 38 and 14 genes were found to be good diagnostic biomarkers in breast, colorectal, head and neck, kidneyR, kidneyP, liver, lung and thyroid cancers, respectively. Therefore, we developed a novel working pipeline that allowed data sets analyses available worldwide. Validation of this mathematical model evidences that normal-tumor transition is not a conserved process event across different cancers type, but specific to the cell of origin.
publishDate 2019
dc.date.none.fl_str_mv 2019-01-24
2019-01-24T00:00:00Z
2020-03-10T12:12:58Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.1/13567
TID:202237168
url http://hdl.handle.net/10400.1/13567
identifier_str_mv TID:202237168
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
application/pdf
application/pdf
application/pdf
application/pdf
application/pdf
application/pdf
application/pdf
application/pdf
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133284394860545