Seleção de marcadores SNP: uma aplicação com diferentes metodologias

Detalhes bibliográficos
Autor(a) principal: Ióca, Mariana Pavan
Data de Publicação: 2020
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/13542
Resumo: The quantity and complexity of generated data due to advances in genetic sequencing technologies has made statistical analysis an essential tool for their correct study and interpretation. However, there is still no agreement about which methodologies are more appropriate for those data, especially for the selection of genetic features that influence a specific phenotype. Genetic data are usually characterized by having a number of variables which is much greater than the number of observations. These variables exhibit little variability and high correlation. These characteristics hinder the application of traditional methodologies for variable selection. In this work (i.) we present different methodologies for selecting variables - Random Forest, LASSO and the traditional Stepwise method; (ii.) we apply them to genetic data to select SNP markers that characterize the presence or absence of a disease and (iii.) we compare their performances. Random Forest and Lasso show similar prediction performance, however none of them correctly select the influential SNPs.
id SCAR_af4c350c106f7316c30a3912e4ce335b
oai_identifier_str oai:repositorio.ufscar.br:ufscar/13542
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Ióca, Mariana PavanZuanetti, Daiane Aparecidahttp://lattes.cnpq.br/8352484284929824http://lattes.cnpq.br/59262073222300383a209d65-688e-4651-a609-08671c5764092020-12-09T21:24:52Z2020-12-09T21:24:52Z2020-09-25IÓCA, Mariana Pavan. Seleção de marcadores SNP: uma aplicação com diferentes metodologias. 2020. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/13542.https://repositorio.ufscar.br/handle/ufscar/13542The quantity and complexity of generated data due to advances in genetic sequencing technologies has made statistical analysis an essential tool for their correct study and interpretation. However, there is still no agreement about which methodologies are more appropriate for those data, especially for the selection of genetic features that influence a specific phenotype. Genetic data are usually characterized by having a number of variables which is much greater than the number of observations. These variables exhibit little variability and high correlation. These characteristics hinder the application of traditional methodologies for variable selection. In this work (i.) we present different methodologies for selecting variables - Random Forest, LASSO and the traditional Stepwise method; (ii.) we apply them to genetic data to select SNP markers that characterize the presence or absence of a disease and (iii.) we compare their performances. Random Forest and Lasso show similar prediction performance, however none of them correctly select the influential SNPs.A quantidade e a complexidade dos dados gerados devido ao avanço nas tecnologias de sequenciamento genético fez da análise estatística uma ferramenta essencial para a interpretação correta de resultados. No entanto, ainda não há um consenso sobre quais metodologias são mais adequadas para esses dados. Além disso, os dados genéticos apresentam uma grande quantidade de variáveis (marcadores, genótipos, etc) e poucas observações, logo, a utilização de algumas metodologias estatísticas tornam-se inviáveis. Os objetivos desse trabalho de conclusão de curso são: (i.) estudar duas metodologias de seleção de variáveis - Florestas Aleatórias e LASSO, (ii.) aplica-las em dados genéticos para selecionar marcadores SNP (do inglês Single Nucleotide Polymorphism) presentes nos indivíduos que caracterizam a presença ou não de uma doença e (iii.) comparar suas performances.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosEstatística - EsUFSCarCC0 1.0 Universalhttp://creativecommons.org/publicdomain/zero/1.0/info:eu-repo/semantics/openAccessSNPLASSOSeleção de variáveisFlorestas aleatóriasCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOSSeleção de marcadores SNP: uma aplicação com diferentes metodologiasSelection of SNP markers: an application with different methodologiesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis600600b32a2fc3-5d19-41db-9bab-08a95238ddf5reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALTG2_Mariana_Pavan_Ioca.pdfTG2_Mariana_Pavan_Ioca.pdfapplication/pdf296147https://repositorio.ufscar.br/bitstream/ufscar/13542/1/TG2_Mariana_Pavan_Ioca.pdf9115a6077c0d9c84de3d9d03e78ea717MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8701https://repositorio.ufscar.br/bitstream/ufscar/13542/2/license_rdf42fd4ad1e89814f5e4a476b409eb708cMD52TEXTTG2_Mariana_Pavan_Ioca.pdf.txtTG2_Mariana_Pavan_Ioca.pdf.txtExtracted texttext/plain66858https://repositorio.ufscar.br/bitstream/ufscar/13542/3/TG2_Mariana_Pavan_Ioca.pdf.txt421a33c06ccfb91cafe7d54a6a3ccb37MD53THUMBNAILTG2_Mariana_Pavan_Ioca.pdf.jpgTG2_Mariana_Pavan_Ioca.pdf.jpgIM Thumbnailimage/jpeg5996https://repositorio.ufscar.br/bitstream/ufscar/13542/4/TG2_Mariana_Pavan_Ioca.pdf.jpg4ca06740d55395b67e1eaa30aad15735MD54ufscar/135422023-09-18 18:32:04.661oai:repositorio.ufscar.br:ufscar/13542Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:32:04Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Seleção de marcadores SNP: uma aplicação com diferentes metodologias
dc.title.alternative.por.fl_str_mv Selection of SNP markers: an application with different methodologies
title Seleção de marcadores SNP: uma aplicação com diferentes metodologias
spellingShingle Seleção de marcadores SNP: uma aplicação com diferentes metodologias
Ióca, Mariana Pavan
SNP
LASSO
Seleção de variáveis
Florestas aleatórias
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
title_short Seleção de marcadores SNP: uma aplicação com diferentes metodologias
title_full Seleção de marcadores SNP: uma aplicação com diferentes metodologias
title_fullStr Seleção de marcadores SNP: uma aplicação com diferentes metodologias
title_full_unstemmed Seleção de marcadores SNP: uma aplicação com diferentes metodologias
title_sort Seleção de marcadores SNP: uma aplicação com diferentes metodologias
author Ióca, Mariana Pavan
author_facet Ióca, Mariana Pavan
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/5926207322230038
dc.contributor.author.fl_str_mv Ióca, Mariana Pavan
dc.contributor.advisor1.fl_str_mv Zuanetti, Daiane Aparecida
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/8352484284929824
dc.contributor.authorID.fl_str_mv 3a209d65-688e-4651-a609-08671c576409
contributor_str_mv Zuanetti, Daiane Aparecida
dc.subject.por.fl_str_mv SNP
LASSO
Seleção de variáveis
Florestas aleatórias
topic SNP
LASSO
Seleção de variáveis
Florestas aleatórias
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
description The quantity and complexity of generated data due to advances in genetic sequencing technologies has made statistical analysis an essential tool for their correct study and interpretation. However, there is still no agreement about which methodologies are more appropriate for those data, especially for the selection of genetic features that influence a specific phenotype. Genetic data are usually characterized by having a number of variables which is much greater than the number of observations. These variables exhibit little variability and high correlation. These characteristics hinder the application of traditional methodologies for variable selection. In this work (i.) we present different methodologies for selecting variables - Random Forest, LASSO and the traditional Stepwise method; (ii.) we apply them to genetic data to select SNP markers that characterize the presence or absence of a disease and (iii.) we compare their performances. Random Forest and Lasso show similar prediction performance, however none of them correctly select the influential SNPs.
publishDate 2020
dc.date.accessioned.fl_str_mv 2020-12-09T21:24:52Z
dc.date.available.fl_str_mv 2020-12-09T21:24:52Z
dc.date.issued.fl_str_mv 2020-09-25
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv IÓCA, Mariana Pavan. Seleção de marcadores SNP: uma aplicação com diferentes metodologias. 2020. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/13542.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/13542
identifier_str_mv IÓCA, Mariana Pavan. Seleção de marcadores SNP: uma aplicação com diferentes metodologias. 2020. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/13542.
url https://repositorio.ufscar.br/handle/ufscar/13542
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
600
dc.relation.authority.fl_str_mv b32a2fc3-5d19-41db-9bab-08a95238ddf5
dc.rights.driver.fl_str_mv CC0 1.0 Universal
http://creativecommons.org/publicdomain/zero/1.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC0 1.0 Universal
http://creativecommons.org/publicdomain/zero/1.0/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
Estatística - Es
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
Estatística - Es
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/13542/1/TG2_Mariana_Pavan_Ioca.pdf
https://repositorio.ufscar.br/bitstream/ufscar/13542/2/license_rdf
https://repositorio.ufscar.br/bitstream/ufscar/13542/3/TG2_Mariana_Pavan_Ioca.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/13542/4/TG2_Mariana_Pavan_Ioca.pdf.jpg
bitstream.checksum.fl_str_mv 9115a6077c0d9c84de3d9d03e78ea717
42fd4ad1e89814f5e4a476b409eb708c
421a33c06ccfb91cafe7d54a6a3ccb37
4ca06740d55395b67e1eaa30aad15735
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1802136383173689344