Análise de dados de alta dimensão utilizando Apache Spark com R
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
Texto Completo: | http://app.uff.br/riuff/handle/1/25818 |
Resumo: | Este trabalho apresenta o Apache Spark, ferramenta que utiliza computação distribuída para tratar dados com grandes dimensões. Serão mostradas diversas funcionalidades do Spark dentro da linguagem de programação R, através do pacote SparkR. Por fim, utiliza-se todo o conhecimento apresentado para tratar um conjunto de dados sobre carros usados e treinar um modelo de árvore de decisão para predizer o valor dos carros. Apesar do modelo treinado não ser satisfatório, foi possível observar diversas dificuldades em utilizar os SparkR para realizar esse tipo de análise. |
id |
UFF-2_fc165d8a40e0b97e6b0616d558c33ff0 |
---|---|
oai_identifier_str |
oai:app.uff.br:1/25818 |
network_acronym_str |
UFF-2 |
network_name_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository_id_str |
2120 |
spelling |
Análise de dados de alta dimensão utilizando Apache Spark com RApache SparkBig dataRComputação distribuídaMapReduceEstatísticaMineração de textoTecnologia da informaçãoR (Linguagem de programação de computador)Este trabalho apresenta o Apache Spark, ferramenta que utiliza computação distribuída para tratar dados com grandes dimensões. Serão mostradas diversas funcionalidades do Spark dentro da linguagem de programação R, através do pacote SparkR. Por fim, utiliza-se todo o conhecimento apresentado para tratar um conjunto de dados sobre carros usados e treinar um modelo de árvore de decisão para predizer o valor dos carros. Apesar do modelo treinado não ser satisfatório, foi possível observar diversas dificuldades em utilizar os SparkR para realizar esse tipo de análise.72 f.NiteróiPinto, Douglas RodriguesPinto, Douglas RodriguesKubrusly, Jessica QuintanilhaYaginuma, Karina YurikoPinto, Douglas RodriguesSantos, Daniel dos2022-07-25T16:24:03Z2022-07-25T16:24:03Z2021info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfSANTOS, Daniel dos. Análise de dados de alta dimensão utilizando Apache Spark com R. 2021. 72 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2021.http://app.uff.br/riuff/handle/1/25818Aluno de GraduaçãoCC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2022-07-25T16:24:07Zoai:app.uff.br:1/25818Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202024-08-19T10:54:16.835230Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false |
dc.title.none.fl_str_mv |
Análise de dados de alta dimensão utilizando Apache Spark com R |
title |
Análise de dados de alta dimensão utilizando Apache Spark com R |
spellingShingle |
Análise de dados de alta dimensão utilizando Apache Spark com R Santos, Daniel dos Apache Spark Big data R Computação distribuída MapReduce Estatística Mineração de texto Tecnologia da informação R (Linguagem de programação de computador) |
title_short |
Análise de dados de alta dimensão utilizando Apache Spark com R |
title_full |
Análise de dados de alta dimensão utilizando Apache Spark com R |
title_fullStr |
Análise de dados de alta dimensão utilizando Apache Spark com R |
title_full_unstemmed |
Análise de dados de alta dimensão utilizando Apache Spark com R |
title_sort |
Análise de dados de alta dimensão utilizando Apache Spark com R |
author |
Santos, Daniel dos |
author_facet |
Santos, Daniel dos |
author_role |
author |
dc.contributor.none.fl_str_mv |
Pinto, Douglas Rodrigues Pinto, Douglas Rodrigues Kubrusly, Jessica Quintanilha Yaginuma, Karina Yuriko Pinto, Douglas Rodrigues |
dc.contributor.author.fl_str_mv |
Santos, Daniel dos |
dc.subject.por.fl_str_mv |
Apache Spark Big data R Computação distribuída MapReduce Estatística Mineração de texto Tecnologia da informação R (Linguagem de programação de computador) |
topic |
Apache Spark Big data R Computação distribuída MapReduce Estatística Mineração de texto Tecnologia da informação R (Linguagem de programação de computador) |
description |
Este trabalho apresenta o Apache Spark, ferramenta que utiliza computação distribuída para tratar dados com grandes dimensões. Serão mostradas diversas funcionalidades do Spark dentro da linguagem de programação R, através do pacote SparkR. Por fim, utiliza-se todo o conhecimento apresentado para tratar um conjunto de dados sobre carros usados e treinar um modelo de árvore de decisão para predizer o valor dos carros. Apesar do modelo treinado não ser satisfatório, foi possível observar diversas dificuldades em utilizar os SparkR para realizar esse tipo de análise. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021 2022-07-25T16:24:03Z 2022-07-25T16:24:03Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
SANTOS, Daniel dos. Análise de dados de alta dimensão utilizando Apache Spark com R. 2021. 72 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2021. http://app.uff.br/riuff/handle/1/25818 Aluno de Graduação |
identifier_str_mv |
SANTOS, Daniel dos. Análise de dados de alta dimensão utilizando Apache Spark com R. 2021. 72 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2021. Aluno de Graduação |
url |
http://app.uff.br/riuff/handle/1/25818 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
CC-BY-SA info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
CC-BY-SA |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Niterói |
publisher.none.fl_str_mv |
Niterói |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF) instname:Universidade Federal Fluminense (UFF) instacron:UFF |
instname_str |
Universidade Federal Fluminense (UFF) |
instacron_str |
UFF |
institution |
UFF |
reponame_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
collection |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF) |
repository.mail.fl_str_mv |
riuff@id.uff.br |
_version_ |
1811823603817119744 |