Abordagens de machine learning para análise de dados multiômicos de câncer de pulmão
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/274719 |
Resumo: | Desde o Projeto Genoma Humano até hoje, a tecnologia e a capacidade computacional de processamento de dados biológicos se desenvolveu, possibilitando o processamento e facilitando o compartilhamento de uma grande quantidade de dados. Além do citado, as tecnologias de sequenciamento de DNA evoluíram e melhoram sua eficiência, e, como consequência, os custos foram reduzidos. Tendo isso em vista, ocorreu a necessidade de novos métodos cada vez mais eficientes para obtenção de dados biológicos e ferramentas para analisar as informações, agora abundantes. Deste modo, diversos conjuntos de dados biológicos estão disponíveis publicamente, podendo ser analisados por por múltiplos pesquisadores e diferentes abordagens. O câncer de pulmão é o tipo de câncer que mais incorre em morte, sendo que seu diagnóstico ocorre nos estágios mais avançados da doença em 75% dos casos, prejudicando o prognóstico. Os métodos de diagnóstico mais utilizados também não garantem acurácia para a identificação precoce, e, por vezes, levam pacientes a exposição a radiação e métodos invasivos desnecessariamente, além de terem altos custos. O câncer é uma doença complexa, envolvendo a desregulação de moléculas a níveis genômicos, transcriptômicos, proteicos e metabolômicos. Assim, há vantagem em analisar essa patologia de forma multiômica, ou seja, integrando as ômicas a fim de obter biomarcadores que consideram a complexidade do câncer de pulmão. Os biomarcadores são moléculas ou processos biológicos que são utilizados com propósito de diagnóstico, predição de risco, estadiamento, prognóstico, predição de resposta ao tratamento, seleção de tratamento, entre outros. Assim, a finalidade da análise realizada no presente trabalho, são os biomarcadores, ou seja, as características biológicas dentre o conjunto de dados que permite a predição da classificação de uma amostra entre a condição de amostra de câncer de pulmão ou tecido normal. Nesse sentido, um conjunto de dados RNA-seq proveniente de tecidos de câncer pulmão e de tecidos saudáveis adjacentes (dados pareados do mesmo indivíduo) foi submetido ao treinamento e teste com abordagens de machine learning. Usando abordagens de machine learning (Random forest e Support Vector Machine), os dados de transcritômica (expressão gênica) e genômica (SNPs) foram analisados independentemente e ambos os resultados foram considerados, buscando identificar processos, genes e mutações - biomarcadores - para propósito de diagnóstico do câncer de pulmão. Os genes selecionados e os processos bioquímicos associados a eles, na análise realizada com os dados de expressão gênica, mostraram-se em sua maioria associados ao câncer na literatura. De outra forma, as mutações selecionadas foram identificadas como ainda bastante desconhecidas no meio científico. Apesar disso, possíveis biomarcadores destacaram-se por estarem presentes na intersecção dos resultados para ambas as análises realizadas. |
id |
UFRGS-2_598604c64867cc44ffcc34c1fceba85d |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/274719 |
network_acronym_str |
UFRGS-2 |
network_name_str |
Repositório Institucional da UFRGS |
repository_id_str |
|
spelling |
Coelho, Juliana Gabriela PassinatoDorn, MárcioPoloni, Joice de Faria2024-04-12T06:21:11Z2024http://hdl.handle.net/10183/274719001199452Desde o Projeto Genoma Humano até hoje, a tecnologia e a capacidade computacional de processamento de dados biológicos se desenvolveu, possibilitando o processamento e facilitando o compartilhamento de uma grande quantidade de dados. Além do citado, as tecnologias de sequenciamento de DNA evoluíram e melhoram sua eficiência, e, como consequência, os custos foram reduzidos. Tendo isso em vista, ocorreu a necessidade de novos métodos cada vez mais eficientes para obtenção de dados biológicos e ferramentas para analisar as informações, agora abundantes. Deste modo, diversos conjuntos de dados biológicos estão disponíveis publicamente, podendo ser analisados por por múltiplos pesquisadores e diferentes abordagens. O câncer de pulmão é o tipo de câncer que mais incorre em morte, sendo que seu diagnóstico ocorre nos estágios mais avançados da doença em 75% dos casos, prejudicando o prognóstico. Os métodos de diagnóstico mais utilizados também não garantem acurácia para a identificação precoce, e, por vezes, levam pacientes a exposição a radiação e métodos invasivos desnecessariamente, além de terem altos custos. O câncer é uma doença complexa, envolvendo a desregulação de moléculas a níveis genômicos, transcriptômicos, proteicos e metabolômicos. Assim, há vantagem em analisar essa patologia de forma multiômica, ou seja, integrando as ômicas a fim de obter biomarcadores que consideram a complexidade do câncer de pulmão. Os biomarcadores são moléculas ou processos biológicos que são utilizados com propósito de diagnóstico, predição de risco, estadiamento, prognóstico, predição de resposta ao tratamento, seleção de tratamento, entre outros. Assim, a finalidade da análise realizada no presente trabalho, são os biomarcadores, ou seja, as características biológicas dentre o conjunto de dados que permite a predição da classificação de uma amostra entre a condição de amostra de câncer de pulmão ou tecido normal. Nesse sentido, um conjunto de dados RNA-seq proveniente de tecidos de câncer pulmão e de tecidos saudáveis adjacentes (dados pareados do mesmo indivíduo) foi submetido ao treinamento e teste com abordagens de machine learning. Usando abordagens de machine learning (Random forest e Support Vector Machine), os dados de transcritômica (expressão gênica) e genômica (SNPs) foram analisados independentemente e ambos os resultados foram considerados, buscando identificar processos, genes e mutações - biomarcadores - para propósito de diagnóstico do câncer de pulmão. Os genes selecionados e os processos bioquímicos associados a eles, na análise realizada com os dados de expressão gênica, mostraram-se em sua maioria associados ao câncer na literatura. De outra forma, as mutações selecionadas foram identificadas como ainda bastante desconhecidas no meio científico. Apesar disso, possíveis biomarcadores destacaram-se por estarem presentes na intersecção dos resultados para ambas as análises realizadas.From the Human Genome Project until today, the technology and computational capacity for processing biological data have developed, enabling the processing and facilitating the sharing of a large amount of data. In addition to the aforementioned, DNA sequencing technologies have evolved and improved their efficiency, leading to a reduction in costs. With this in mind, there arose the need for increasingly efficient methods to obtain biological data and tools to analyze the now abundant information. In this way, various sets of biological data are publicly available, capable of being analyzed by multiple researchers using different approaches. Lung cancer is the most deadly type of cancer, with 75% of cases being diagnosed in the advanced stages of the disease, impacting prognosis. The most commonly used diagnostic methods also do not ensure accuracy for early identification and, at times, subject patients to unnecessary radiation exposure and invasive procedures, in addition to having high costs. Cancer is a complex disease involving the dysregulation of molecules at genomic, transcriptomic, proteomic, and metabolomic levels. Therefore, there is an advantage in analyzing this pathology in a multiomic way, integrating omics to obtain biomarkers that consider the complexity of lung cancer. Biomarkers are molecules or biological processes used for purposes such as diagnosis, risk prediction, staging, prognosis, prediction of treatment response, treatment selection, among others. The purpose of the analysis in this study is biomarkers, i.e., the biological characteristics within the dataset that enable the prediction of the classification of a sample as either lung cancer or normal tissue. In this regard, an RNA-seq dataset from lung cancer tissues and adjacent healthy tissues (paired data from the same individual) was subjected to training and testing using machine learning approaches. Using machine learning techniques (Random Forest and Support Vector Machine), transcriptomic (gene expression) and genomic (SNPs) data were independently analyzed, and both results were considered to identify processes, genes, and mutations - biomarkers - for lung cancer diagnosis. The selected genes and the associated biochemical processes, in the analysis using gene expression data, were mostly found to be associated with cancer in the literature. On the other hand, the selected mutations were identified as largely unknown in the scientific community. Nevertheless, potential biomarkers stood out for being present at the intersection of the results for both analyses conducted.application/pdfporBiologia molecularExpressão gênicaPolimorfismoAprendizado de máquinaBiomarcadoresAdenocarcinoma de pulmãoMultiomicsGene expressionSNPsMachine learningBiomarkersLung adenocarcinomaAbordagens de machine learning para análise de dados multiômicos de câncer de pulmãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de BiociênciasPorto Alegre, BR-RS2024Biotecnologiagraduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001199452.pdf.txt001199452.pdf.txtExtracted Texttext/plain147099http://www.lume.ufrgs.br/bitstream/10183/274719/2/001199452.pdf.txt0a0e52860a21566b80a0ce9ad1887ee5MD52ORIGINAL001199452.pdfTexto completoapplication/pdf2771630http://www.lume.ufrgs.br/bitstream/10183/274719/1/001199452.pdfea02fb7e33ab4a6ed88ba0b0d5db3209MD5110183/2747192024-04-13 06:46:44.418016oai:www.lume.ufrgs.br:10183/274719Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2024-04-13T09:46:44Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Abordagens de machine learning para análise de dados multiômicos de câncer de pulmão |
title |
Abordagens de machine learning para análise de dados multiômicos de câncer de pulmão |
spellingShingle |
Abordagens de machine learning para análise de dados multiômicos de câncer de pulmão Coelho, Juliana Gabriela Passinato Biologia molecular Expressão gênica Polimorfismo Aprendizado de máquina Biomarcadores Adenocarcinoma de pulmão Multiomics Gene expression SNPs Machine learning Biomarkers Lung adenocarcinoma |
title_short |
Abordagens de machine learning para análise de dados multiômicos de câncer de pulmão |
title_full |
Abordagens de machine learning para análise de dados multiômicos de câncer de pulmão |
title_fullStr |
Abordagens de machine learning para análise de dados multiômicos de câncer de pulmão |
title_full_unstemmed |
Abordagens de machine learning para análise de dados multiômicos de câncer de pulmão |
title_sort |
Abordagens de machine learning para análise de dados multiômicos de câncer de pulmão |
author |
Coelho, Juliana Gabriela Passinato |
author_facet |
Coelho, Juliana Gabriela Passinato |
author_role |
author |
dc.contributor.author.fl_str_mv |
Coelho, Juliana Gabriela Passinato |
dc.contributor.advisor1.fl_str_mv |
Dorn, Márcio |
dc.contributor.advisor-co1.fl_str_mv |
Poloni, Joice de Faria |
contributor_str_mv |
Dorn, Márcio Poloni, Joice de Faria |
dc.subject.por.fl_str_mv |
Biologia molecular Expressão gênica Polimorfismo Aprendizado de máquina Biomarcadores Adenocarcinoma de pulmão |
topic |
Biologia molecular Expressão gênica Polimorfismo Aprendizado de máquina Biomarcadores Adenocarcinoma de pulmão Multiomics Gene expression SNPs Machine learning Biomarkers Lung adenocarcinoma |
dc.subject.eng.fl_str_mv |
Multiomics Gene expression SNPs Machine learning Biomarkers Lung adenocarcinoma |
description |
Desde o Projeto Genoma Humano até hoje, a tecnologia e a capacidade computacional de processamento de dados biológicos se desenvolveu, possibilitando o processamento e facilitando o compartilhamento de uma grande quantidade de dados. Além do citado, as tecnologias de sequenciamento de DNA evoluíram e melhoram sua eficiência, e, como consequência, os custos foram reduzidos. Tendo isso em vista, ocorreu a necessidade de novos métodos cada vez mais eficientes para obtenção de dados biológicos e ferramentas para analisar as informações, agora abundantes. Deste modo, diversos conjuntos de dados biológicos estão disponíveis publicamente, podendo ser analisados por por múltiplos pesquisadores e diferentes abordagens. O câncer de pulmão é o tipo de câncer que mais incorre em morte, sendo que seu diagnóstico ocorre nos estágios mais avançados da doença em 75% dos casos, prejudicando o prognóstico. Os métodos de diagnóstico mais utilizados também não garantem acurácia para a identificação precoce, e, por vezes, levam pacientes a exposição a radiação e métodos invasivos desnecessariamente, além de terem altos custos. O câncer é uma doença complexa, envolvendo a desregulação de moléculas a níveis genômicos, transcriptômicos, proteicos e metabolômicos. Assim, há vantagem em analisar essa patologia de forma multiômica, ou seja, integrando as ômicas a fim de obter biomarcadores que consideram a complexidade do câncer de pulmão. Os biomarcadores são moléculas ou processos biológicos que são utilizados com propósito de diagnóstico, predição de risco, estadiamento, prognóstico, predição de resposta ao tratamento, seleção de tratamento, entre outros. Assim, a finalidade da análise realizada no presente trabalho, são os biomarcadores, ou seja, as características biológicas dentre o conjunto de dados que permite a predição da classificação de uma amostra entre a condição de amostra de câncer de pulmão ou tecido normal. Nesse sentido, um conjunto de dados RNA-seq proveniente de tecidos de câncer pulmão e de tecidos saudáveis adjacentes (dados pareados do mesmo indivíduo) foi submetido ao treinamento e teste com abordagens de machine learning. Usando abordagens de machine learning (Random forest e Support Vector Machine), os dados de transcritômica (expressão gênica) e genômica (SNPs) foram analisados independentemente e ambos os resultados foram considerados, buscando identificar processos, genes e mutações - biomarcadores - para propósito de diagnóstico do câncer de pulmão. Os genes selecionados e os processos bioquímicos associados a eles, na análise realizada com os dados de expressão gênica, mostraram-se em sua maioria associados ao câncer na literatura. De outra forma, as mutações selecionadas foram identificadas como ainda bastante desconhecidas no meio científico. Apesar disso, possíveis biomarcadores destacaram-se por estarem presentes na intersecção dos resultados para ambas as análises realizadas. |
publishDate |
2024 |
dc.date.accessioned.fl_str_mv |
2024-04-12T06:21:11Z |
dc.date.issued.fl_str_mv |
2024 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/274719 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001199452 |
url |
http://hdl.handle.net/10183/274719 |
identifier_str_mv |
001199452 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Repositório Institucional da UFRGS |
collection |
Repositório Institucional da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/274719/2/001199452.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/274719/1/001199452.pdf |
bitstream.checksum.fl_str_mv |
0a0e52860a21566b80a0ce9ad1887ee5 ea02fb7e33ab4a6ed88ba0b0d5db3209 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
|
_version_ |
1815447365788631040 |