Abordagens de machine learning para análise de dados multiômicos de câncer de pulmão

Detalhes bibliográficos
Autor(a) principal: Coelho, Juliana Gabriela Passinato
Data de Publicação: 2024
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/274719
Resumo: Desde o Projeto Genoma Humano até hoje, a tecnologia e a capacidade computacional de processamento de dados biológicos se desenvolveu, possibilitando o processamento e facilitando o compartilhamento de uma grande quantidade de dados. Além do citado, as tecnologias de sequenciamento de DNA evoluíram e melhoram sua eficiência, e, como consequência, os custos foram reduzidos. Tendo isso em vista, ocorreu a necessidade de novos métodos cada vez mais eficientes para obtenção de dados biológicos e ferramentas para analisar as informações, agora abundantes. Deste modo, diversos conjuntos de dados biológicos estão disponíveis publicamente, podendo ser analisados por por múltiplos pesquisadores e diferentes abordagens. O câncer de pulmão é o tipo de câncer que mais incorre em morte, sendo que seu diagnóstico ocorre nos estágios mais avançados da doença em 75% dos casos, prejudicando o prognóstico. Os métodos de diagnóstico mais utilizados também não garantem acurácia para a identificação precoce, e, por vezes, levam pacientes a exposição a radiação e métodos invasivos desnecessariamente, além de terem altos custos. O câncer é uma doença complexa, envolvendo a desregulação de moléculas a níveis genômicos, transcriptômicos, proteicos e metabolômicos. Assim, há vantagem em analisar essa patologia de forma multiômica, ou seja, integrando as ômicas a fim de obter biomarcadores que consideram a complexidade do câncer de pulmão. Os biomarcadores são moléculas ou processos biológicos que são utilizados com propósito de diagnóstico, predição de risco, estadiamento, prognóstico, predição de resposta ao tratamento, seleção de tratamento, entre outros. Assim, a finalidade da análise realizada no presente trabalho, são os biomarcadores, ou seja, as características biológicas dentre o conjunto de dados que permite a predição da classificação de uma amostra entre a condição de amostra de câncer de pulmão ou tecido normal. Nesse sentido, um conjunto de dados RNA-seq proveniente de tecidos de câncer pulmão e de tecidos saudáveis adjacentes (dados pareados do mesmo indivíduo) foi submetido ao treinamento e teste com abordagens de machine learning. Usando abordagens de machine learning (Random forest e Support Vector Machine), os dados de transcritômica (expressão gênica) e genômica (SNPs) foram analisados independentemente e ambos os resultados foram considerados, buscando identificar processos, genes e mutações - biomarcadores - para propósito de diagnóstico do câncer de pulmão. Os genes selecionados e os processos bioquímicos associados a eles, na análise realizada com os dados de expressão gênica, mostraram-se em sua maioria associados ao câncer na literatura. De outra forma, as mutações selecionadas foram identificadas como ainda bastante desconhecidas no meio científico. Apesar disso, possíveis biomarcadores destacaram-se por estarem presentes na intersecção dos resultados para ambas as análises realizadas.
id UFRGS-2_598604c64867cc44ffcc34c1fceba85d
oai_identifier_str oai:www.lume.ufrgs.br:10183/274719
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Coelho, Juliana Gabriela PassinatoDorn, MárcioPoloni, Joice de Faria2024-04-12T06:21:11Z2024http://hdl.handle.net/10183/274719001199452Desde o Projeto Genoma Humano até hoje, a tecnologia e a capacidade computacional de processamento de dados biológicos se desenvolveu, possibilitando o processamento e facilitando o compartilhamento de uma grande quantidade de dados. Além do citado, as tecnologias de sequenciamento de DNA evoluíram e melhoram sua eficiência, e, como consequência, os custos foram reduzidos. Tendo isso em vista, ocorreu a necessidade de novos métodos cada vez mais eficientes para obtenção de dados biológicos e ferramentas para analisar as informações, agora abundantes. Deste modo, diversos conjuntos de dados biológicos estão disponíveis publicamente, podendo ser analisados por por múltiplos pesquisadores e diferentes abordagens. O câncer de pulmão é o tipo de câncer que mais incorre em morte, sendo que seu diagnóstico ocorre nos estágios mais avançados da doença em 75% dos casos, prejudicando o prognóstico. Os métodos de diagnóstico mais utilizados também não garantem acurácia para a identificação precoce, e, por vezes, levam pacientes a exposição a radiação e métodos invasivos desnecessariamente, além de terem altos custos. O câncer é uma doença complexa, envolvendo a desregulação de moléculas a níveis genômicos, transcriptômicos, proteicos e metabolômicos. Assim, há vantagem em analisar essa patologia de forma multiômica, ou seja, integrando as ômicas a fim de obter biomarcadores que consideram a complexidade do câncer de pulmão. Os biomarcadores são moléculas ou processos biológicos que são utilizados com propósito de diagnóstico, predição de risco, estadiamento, prognóstico, predição de resposta ao tratamento, seleção de tratamento, entre outros. Assim, a finalidade da análise realizada no presente trabalho, são os biomarcadores, ou seja, as características biológicas dentre o conjunto de dados que permite a predição da classificação de uma amostra entre a condição de amostra de câncer de pulmão ou tecido normal. Nesse sentido, um conjunto de dados RNA-seq proveniente de tecidos de câncer pulmão e de tecidos saudáveis adjacentes (dados pareados do mesmo indivíduo) foi submetido ao treinamento e teste com abordagens de machine learning. Usando abordagens de machine learning (Random forest e Support Vector Machine), os dados de transcritômica (expressão gênica) e genômica (SNPs) foram analisados independentemente e ambos os resultados foram considerados, buscando identificar processos, genes e mutações - biomarcadores - para propósito de diagnóstico do câncer de pulmão. Os genes selecionados e os processos bioquímicos associados a eles, na análise realizada com os dados de expressão gênica, mostraram-se em sua maioria associados ao câncer na literatura. De outra forma, as mutações selecionadas foram identificadas como ainda bastante desconhecidas no meio científico. Apesar disso, possíveis biomarcadores destacaram-se por estarem presentes na intersecção dos resultados para ambas as análises realizadas.From the Human Genome Project until today, the technology and computational capacity for processing biological data have developed, enabling the processing and facilitating the sharing of a large amount of data. In addition to the aforementioned, DNA sequencing technologies have evolved and improved their efficiency, leading to a reduction in costs. With this in mind, there arose the need for increasingly efficient methods to obtain biological data and tools to analyze the now abundant information. In this way, various sets of biological data are publicly available, capable of being analyzed by multiple researchers using different approaches. Lung cancer is the most deadly type of cancer, with 75% of cases being diagnosed in the advanced stages of the disease, impacting prognosis. The most commonly used diagnostic methods also do not ensure accuracy for early identification and, at times, subject patients to unnecessary radiation exposure and invasive procedures, in addition to having high costs. Cancer is a complex disease involving the dysregulation of molecules at genomic, transcriptomic, proteomic, and metabolomic levels. Therefore, there is an advantage in analyzing this pathology in a multiomic way, integrating omics to obtain biomarkers that consider the complexity of lung cancer. Biomarkers are molecules or biological processes used for purposes such as diagnosis, risk prediction, staging, prognosis, prediction of treatment response, treatment selection, among others. The purpose of the analysis in this study is biomarkers, i.e., the biological characteristics within the dataset that enable the prediction of the classification of a sample as either lung cancer or normal tissue. In this regard, an RNA-seq dataset from lung cancer tissues and adjacent healthy tissues (paired data from the same individual) was subjected to training and testing using machine learning approaches. Using machine learning techniques (Random Forest and Support Vector Machine), transcriptomic (gene expression) and genomic (SNPs) data were independently analyzed, and both results were considered to identify processes, genes, and mutations - biomarkers - for lung cancer diagnosis. The selected genes and the associated biochemical processes, in the analysis using gene expression data, were mostly found to be associated with cancer in the literature. On the other hand, the selected mutations were identified as largely unknown in the scientific community. Nevertheless, potential biomarkers stood out for being present at the intersection of the results for both analyses conducted.application/pdfporBiologia molecularExpressão gênicaPolimorfismoAprendizado de máquinaBiomarcadoresAdenocarcinoma de pulmãoMultiomicsGene expressionSNPsMachine learningBiomarkersLung adenocarcinomaAbordagens de machine learning para análise de dados multiômicos de câncer de pulmãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de BiociênciasPorto Alegre, BR-RS2024Biotecnologiagraduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001199452.pdf.txt001199452.pdf.txtExtracted Texttext/plain147099http://www.lume.ufrgs.br/bitstream/10183/274719/2/001199452.pdf.txt0a0e52860a21566b80a0ce9ad1887ee5MD52ORIGINAL001199452.pdfTexto completoapplication/pdf2771630http://www.lume.ufrgs.br/bitstream/10183/274719/1/001199452.pdfea02fb7e33ab4a6ed88ba0b0d5db3209MD5110183/2747192024-04-13 06:46:44.418016oai:www.lume.ufrgs.br:10183/274719Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2024-04-13T09:46:44Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Abordagens de machine learning para análise de dados multiômicos de câncer de pulmão
title Abordagens de machine learning para análise de dados multiômicos de câncer de pulmão
spellingShingle Abordagens de machine learning para análise de dados multiômicos de câncer de pulmão
Coelho, Juliana Gabriela Passinato
Biologia molecular
Expressão gênica
Polimorfismo
Aprendizado de máquina
Biomarcadores
Adenocarcinoma de pulmão
Multiomics
Gene expression
SNPs
Machine learning
Biomarkers
Lung adenocarcinoma
title_short Abordagens de machine learning para análise de dados multiômicos de câncer de pulmão
title_full Abordagens de machine learning para análise de dados multiômicos de câncer de pulmão
title_fullStr Abordagens de machine learning para análise de dados multiômicos de câncer de pulmão
title_full_unstemmed Abordagens de machine learning para análise de dados multiômicos de câncer de pulmão
title_sort Abordagens de machine learning para análise de dados multiômicos de câncer de pulmão
author Coelho, Juliana Gabriela Passinato
author_facet Coelho, Juliana Gabriela Passinato
author_role author
dc.contributor.author.fl_str_mv Coelho, Juliana Gabriela Passinato
dc.contributor.advisor1.fl_str_mv Dorn, Márcio
dc.contributor.advisor-co1.fl_str_mv Poloni, Joice de Faria
contributor_str_mv Dorn, Márcio
Poloni, Joice de Faria
dc.subject.por.fl_str_mv Biologia molecular
Expressão gênica
Polimorfismo
Aprendizado de máquina
Biomarcadores
Adenocarcinoma de pulmão
topic Biologia molecular
Expressão gênica
Polimorfismo
Aprendizado de máquina
Biomarcadores
Adenocarcinoma de pulmão
Multiomics
Gene expression
SNPs
Machine learning
Biomarkers
Lung adenocarcinoma
dc.subject.eng.fl_str_mv Multiomics
Gene expression
SNPs
Machine learning
Biomarkers
Lung adenocarcinoma
description Desde o Projeto Genoma Humano até hoje, a tecnologia e a capacidade computacional de processamento de dados biológicos se desenvolveu, possibilitando o processamento e facilitando o compartilhamento de uma grande quantidade de dados. Além do citado, as tecnologias de sequenciamento de DNA evoluíram e melhoram sua eficiência, e, como consequência, os custos foram reduzidos. Tendo isso em vista, ocorreu a necessidade de novos métodos cada vez mais eficientes para obtenção de dados biológicos e ferramentas para analisar as informações, agora abundantes. Deste modo, diversos conjuntos de dados biológicos estão disponíveis publicamente, podendo ser analisados por por múltiplos pesquisadores e diferentes abordagens. O câncer de pulmão é o tipo de câncer que mais incorre em morte, sendo que seu diagnóstico ocorre nos estágios mais avançados da doença em 75% dos casos, prejudicando o prognóstico. Os métodos de diagnóstico mais utilizados também não garantem acurácia para a identificação precoce, e, por vezes, levam pacientes a exposição a radiação e métodos invasivos desnecessariamente, além de terem altos custos. O câncer é uma doença complexa, envolvendo a desregulação de moléculas a níveis genômicos, transcriptômicos, proteicos e metabolômicos. Assim, há vantagem em analisar essa patologia de forma multiômica, ou seja, integrando as ômicas a fim de obter biomarcadores que consideram a complexidade do câncer de pulmão. Os biomarcadores são moléculas ou processos biológicos que são utilizados com propósito de diagnóstico, predição de risco, estadiamento, prognóstico, predição de resposta ao tratamento, seleção de tratamento, entre outros. Assim, a finalidade da análise realizada no presente trabalho, são os biomarcadores, ou seja, as características biológicas dentre o conjunto de dados que permite a predição da classificação de uma amostra entre a condição de amostra de câncer de pulmão ou tecido normal. Nesse sentido, um conjunto de dados RNA-seq proveniente de tecidos de câncer pulmão e de tecidos saudáveis adjacentes (dados pareados do mesmo indivíduo) foi submetido ao treinamento e teste com abordagens de machine learning. Usando abordagens de machine learning (Random forest e Support Vector Machine), os dados de transcritômica (expressão gênica) e genômica (SNPs) foram analisados independentemente e ambos os resultados foram considerados, buscando identificar processos, genes e mutações - biomarcadores - para propósito de diagnóstico do câncer de pulmão. Os genes selecionados e os processos bioquímicos associados a eles, na análise realizada com os dados de expressão gênica, mostraram-se em sua maioria associados ao câncer na literatura. De outra forma, as mutações selecionadas foram identificadas como ainda bastante desconhecidas no meio científico. Apesar disso, possíveis biomarcadores destacaram-se por estarem presentes na intersecção dos resultados para ambas as análises realizadas.
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-04-12T06:21:11Z
dc.date.issued.fl_str_mv 2024
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/274719
dc.identifier.nrb.pt_BR.fl_str_mv 001199452
url http://hdl.handle.net/10183/274719
identifier_str_mv 001199452
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/274719/2/001199452.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/274719/1/001199452.pdf
bitstream.checksum.fl_str_mv 0a0e52860a21566b80a0ce9ad1887ee5
ea02fb7e33ab4a6ed88ba0b0d5db3209
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1815447365788631040