Análise em larga escala de projetos de ciência de dados open-source

Detalhes bibliográficos
Autor(a) principal: Souza, Luam Silva de
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo: http://app.uff.br/riuff/handle/1/30537
Resumo: O avanço tecnológico das últimas décadas fez com que computadores, sistemas, celulares, wearables e outras mais aplicações estivessem cada vez mais presentes no cotidiano das pessoas. A partir dessa gama de aplicações, um enorme volume de dados é gerado. Neste contexto surge a Ciência de Dados, uma área que tem como objetivo estudar esses dados, que podem ser oriundos de diversos campos, e gerar conhecimento utilizando técnicas de Estatística, Aprendizado de Máquina e Visualização de Dados. Poucos trabalhos da literatura estudam as características da área. Este trabalho utiliza técnicas de análise de dados e mineração de repositórios para entender as práticas e características de projetos do campo de Ciência de Dados. Para isso criamos o DS Mining, uma aplicação que realiza, em larga escala, a coleta, filtragem, extração e análise de projetos públicos de Ciência de Dados disponíveis no site GitHub. Entre março e junho de 2023, o DS Mining coletou 327.016 repositórios do GitHub e analisou 166.867 deles. Com a análise, descobrimos que o número de projetos de Ciência de Dados no Github cresceu 2.210,68% nos últimos 5 anos e que a linguagem de programação mais popular é Python que, por sua vez, tem numpy, pandas, matplotlib e sklearn como módulos mais utilizados
id UFF-2_911b81ed7cb09ea1e63c87b02f97d059
oai_identifier_str oai:app.uff.br:1/30537
network_acronym_str UFF-2
network_name_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str 2120
spelling Análise em larga escala de projetos de ciência de dados open-sourceDadosCiência de dadosMineração de repositóriosGitHubMineração de dados (Computação)Ciência de dadosSoftwareDataData scienceRepository miningO avanço tecnológico das últimas décadas fez com que computadores, sistemas, celulares, wearables e outras mais aplicações estivessem cada vez mais presentes no cotidiano das pessoas. A partir dessa gama de aplicações, um enorme volume de dados é gerado. Neste contexto surge a Ciência de Dados, uma área que tem como objetivo estudar esses dados, que podem ser oriundos de diversos campos, e gerar conhecimento utilizando técnicas de Estatística, Aprendizado de Máquina e Visualização de Dados. Poucos trabalhos da literatura estudam as características da área. Este trabalho utiliza técnicas de análise de dados e mineração de repositórios para entender as práticas e características de projetos do campo de Ciência de Dados. Para isso criamos o DS Mining, uma aplicação que realiza, em larga escala, a coleta, filtragem, extração e análise de projetos públicos de Ciência de Dados disponíveis no site GitHub. Entre março e junho de 2023, o DS Mining coletou 327.016 repositórios do GitHub e analisou 166.867 deles. Com a análise, descobrimos que o número de projetos de Ciência de Dados no Github cresceu 2.210,68% nos últimos 5 anos e que a linguagem de programação mais popular é Python que, por sua vez, tem numpy, pandas, matplotlib e sklearn como módulos mais utilizadosTechnological advances in recent decades have made computers, systems, cell phones, wearables and other applications increasingly present in people’s daily lives. A huge data volume is generated from a range of applications. Within this context, Data Science emerges, an area that aims to study data from different fields, and to generate knowledge using Statistics, Machine Learning and Data Visualization techniques. Few works in the literature study the characteristics of the area. This study uses data analysis and repository mining techniques to understand the practices and characteristics of such projects. In particular, we have created DS Mining to study the problem, an application that performs, on a large scale, the collection, filtering, extraction and analysis of public Data Science projects available on the GitHub website. DS Mining collected 327,016 repositories from GitHub and analyzed 166,867 of them between March and June of 2023, . The analysis revealed that the number of Data Science projects on Github has grown by 2,210.68% in the last 5 years and that the most popular programming language is Python, which has numpy, pandas, matplotlib and sklearn as its most used modules83 p.Murta, Vanessa BraganholoOliveira, Daniel Cardoso Moraes deBêdo, Marcos Vinicius NavesSouza, Luam Silva de2023-09-22T17:03:47Z2023-09-22T17:03:47Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfSOUZA, Luam Silva de. Análise em larga escala de projetos de ciência de dados open-source. 2023. 83 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Instituto de Computação, Universidade Federal Fluminense, Niterói, 2023.http://app.uff.br/riuff/handle/1/30537CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2023-09-22T17:03:51Zoai:app.uff.br:1/30537Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202024-08-19T10:59:49.378066Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv Análise em larga escala de projetos de ciência de dados open-source
title Análise em larga escala de projetos de ciência de dados open-source
spellingShingle Análise em larga escala de projetos de ciência de dados open-source
Souza, Luam Silva de
Dados
Ciência de dados
Mineração de repositórios
GitHub
Mineração de dados (Computação)
Ciência de dados
Software
Data
Data science
Repository mining
title_short Análise em larga escala de projetos de ciência de dados open-source
title_full Análise em larga escala de projetos de ciência de dados open-source
title_fullStr Análise em larga escala de projetos de ciência de dados open-source
title_full_unstemmed Análise em larga escala de projetos de ciência de dados open-source
title_sort Análise em larga escala de projetos de ciência de dados open-source
author Souza, Luam Silva de
author_facet Souza, Luam Silva de
author_role author
dc.contributor.none.fl_str_mv Murta, Vanessa Braganholo
Oliveira, Daniel Cardoso Moraes de
Bêdo, Marcos Vinicius Naves
dc.contributor.author.fl_str_mv Souza, Luam Silva de
dc.subject.por.fl_str_mv Dados
Ciência de dados
Mineração de repositórios
GitHub
Mineração de dados (Computação)
Ciência de dados
Software
Data
Data science
Repository mining
topic Dados
Ciência de dados
Mineração de repositórios
GitHub
Mineração de dados (Computação)
Ciência de dados
Software
Data
Data science
Repository mining
description O avanço tecnológico das últimas décadas fez com que computadores, sistemas, celulares, wearables e outras mais aplicações estivessem cada vez mais presentes no cotidiano das pessoas. A partir dessa gama de aplicações, um enorme volume de dados é gerado. Neste contexto surge a Ciência de Dados, uma área que tem como objetivo estudar esses dados, que podem ser oriundos de diversos campos, e gerar conhecimento utilizando técnicas de Estatística, Aprendizado de Máquina e Visualização de Dados. Poucos trabalhos da literatura estudam as características da área. Este trabalho utiliza técnicas de análise de dados e mineração de repositórios para entender as práticas e características de projetos do campo de Ciência de Dados. Para isso criamos o DS Mining, uma aplicação que realiza, em larga escala, a coleta, filtragem, extração e análise de projetos públicos de Ciência de Dados disponíveis no site GitHub. Entre março e junho de 2023, o DS Mining coletou 327.016 repositórios do GitHub e analisou 166.867 deles. Com a análise, descobrimos que o número de projetos de Ciência de Dados no Github cresceu 2.210,68% nos últimos 5 anos e que a linguagem de programação mais popular é Python que, por sua vez, tem numpy, pandas, matplotlib e sklearn como módulos mais utilizados
publishDate 2023
dc.date.none.fl_str_mv 2023-09-22T17:03:47Z
2023-09-22T17:03:47Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SOUZA, Luam Silva de. Análise em larga escala de projetos de ciência de dados open-source. 2023. 83 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Instituto de Computação, Universidade Federal Fluminense, Niterói, 2023.
http://app.uff.br/riuff/handle/1/30537
identifier_str_mv SOUZA, Luam Silva de. Análise em larga escala de projetos de ciência de dados open-source. 2023. 83 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Instituto de Computação, Universidade Federal Fluminense, Niterói, 2023.
url http://app.uff.br/riuff/handle/1/30537
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC-BY-SA
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)
instname:Universidade Federal Fluminense (UFF)
instacron:UFF
instname_str Universidade Federal Fluminense (UFF)
instacron_str UFF
institution UFF
reponame_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv riuff@id.uff.br
_version_ 1811823630612430848