Análise de dados de alta dimensão utilizando Apache Spark com R

Detalhes bibliográficos
Autor(a) principal: Santos, Daniel dos
Data de Publicação: 2021
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo: http://app.uff.br/riuff/handle/1/25818
Resumo: Este trabalho apresenta o Apache Spark, ferramenta que utiliza computação distribuída para tratar dados com grandes dimensões. Serão mostradas diversas funcionalidades do Spark dentro da linguagem de programação R, através do pacote SparkR. Por fim, utiliza-se todo o conhecimento apresentado para tratar um conjunto de dados sobre carros usados e treinar um modelo de árvore de decisão para predizer o valor dos carros. Apesar do modelo treinado não ser satisfatório, foi possível observar diversas dificuldades em utilizar os SparkR para realizar esse tipo de análise.
id UFF-2_fc165d8a40e0b97e6b0616d558c33ff0
oai_identifier_str oai:app.uff.br:1/25818
network_acronym_str UFF-2
network_name_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str 2120
spelling Análise de dados de alta dimensão utilizando Apache Spark com RApache SparkBig dataRComputação distribuídaMapReduceEstatísticaMineração de textoTecnologia da informaçãoR (Linguagem de programação de computador)Este trabalho apresenta o Apache Spark, ferramenta que utiliza computação distribuída para tratar dados com grandes dimensões. Serão mostradas diversas funcionalidades do Spark dentro da linguagem de programação R, através do pacote SparkR. Por fim, utiliza-se todo o conhecimento apresentado para tratar um conjunto de dados sobre carros usados e treinar um modelo de árvore de decisão para predizer o valor dos carros. Apesar do modelo treinado não ser satisfatório, foi possível observar diversas dificuldades em utilizar os SparkR para realizar esse tipo de análise.72 f.NiteróiPinto, Douglas RodriguesPinto, Douglas RodriguesKubrusly, Jessica QuintanilhaYaginuma, Karina YurikoPinto, Douglas RodriguesSantos, Daniel dos2022-07-25T16:24:03Z2022-07-25T16:24:03Z2021info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfSANTOS, Daniel dos. Análise de dados de alta dimensão utilizando Apache Spark com R. 2021. 72 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2021.http://app.uff.br/riuff/handle/1/25818Aluno de GraduaçãoCC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2022-07-25T16:24:07Zoai:app.uff.br:1/25818Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202024-08-19T10:54:16.835230Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv Análise de dados de alta dimensão utilizando Apache Spark com R
title Análise de dados de alta dimensão utilizando Apache Spark com R
spellingShingle Análise de dados de alta dimensão utilizando Apache Spark com R
Santos, Daniel dos
Apache Spark
Big data
R
Computação distribuída
MapReduce
Estatística
Mineração de texto
Tecnologia da informação
R (Linguagem de programação de computador)
title_short Análise de dados de alta dimensão utilizando Apache Spark com R
title_full Análise de dados de alta dimensão utilizando Apache Spark com R
title_fullStr Análise de dados de alta dimensão utilizando Apache Spark com R
title_full_unstemmed Análise de dados de alta dimensão utilizando Apache Spark com R
title_sort Análise de dados de alta dimensão utilizando Apache Spark com R
author Santos, Daniel dos
author_facet Santos, Daniel dos
author_role author
dc.contributor.none.fl_str_mv Pinto, Douglas Rodrigues
Pinto, Douglas Rodrigues
Kubrusly, Jessica Quintanilha
Yaginuma, Karina Yuriko
Pinto, Douglas Rodrigues
dc.contributor.author.fl_str_mv Santos, Daniel dos
dc.subject.por.fl_str_mv Apache Spark
Big data
R
Computação distribuída
MapReduce
Estatística
Mineração de texto
Tecnologia da informação
R (Linguagem de programação de computador)
topic Apache Spark
Big data
R
Computação distribuída
MapReduce
Estatística
Mineração de texto
Tecnologia da informação
R (Linguagem de programação de computador)
description Este trabalho apresenta o Apache Spark, ferramenta que utiliza computação distribuída para tratar dados com grandes dimensões. Serão mostradas diversas funcionalidades do Spark dentro da linguagem de programação R, através do pacote SparkR. Por fim, utiliza-se todo o conhecimento apresentado para tratar um conjunto de dados sobre carros usados e treinar um modelo de árvore de decisão para predizer o valor dos carros. Apesar do modelo treinado não ser satisfatório, foi possível observar diversas dificuldades em utilizar os SparkR para realizar esse tipo de análise.
publishDate 2021
dc.date.none.fl_str_mv 2021
2022-07-25T16:24:03Z
2022-07-25T16:24:03Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SANTOS, Daniel dos. Análise de dados de alta dimensão utilizando Apache Spark com R. 2021. 72 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2021.
http://app.uff.br/riuff/handle/1/25818
Aluno de Graduação
identifier_str_mv SANTOS, Daniel dos. Análise de dados de alta dimensão utilizando Apache Spark com R. 2021. 72 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2021.
Aluno de Graduação
url http://app.uff.br/riuff/handle/1/25818
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC-BY-SA
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Niterói
publisher.none.fl_str_mv Niterói
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)
instname:Universidade Federal Fluminense (UFF)
instacron:UFF
instname_str Universidade Federal Fluminense (UFF)
instacron_str UFF
institution UFF
reponame_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv riuff@id.uff.br
_version_ 1811823603817119744