Análise em larga escala de projetos de ciência de dados open-source
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
Texto Completo: | http://app.uff.br/riuff/handle/1/30537 |
Resumo: | O avanço tecnológico das últimas décadas fez com que computadores, sistemas, celulares, wearables e outras mais aplicações estivessem cada vez mais presentes no cotidiano das pessoas. A partir dessa gama de aplicações, um enorme volume de dados é gerado. Neste contexto surge a Ciência de Dados, uma área que tem como objetivo estudar esses dados, que podem ser oriundos de diversos campos, e gerar conhecimento utilizando técnicas de Estatística, Aprendizado de Máquina e Visualização de Dados. Poucos trabalhos da literatura estudam as características da área. Este trabalho utiliza técnicas de análise de dados e mineração de repositórios para entender as práticas e características de projetos do campo de Ciência de Dados. Para isso criamos o DS Mining, uma aplicação que realiza, em larga escala, a coleta, filtragem, extração e análise de projetos públicos de Ciência de Dados disponíveis no site GitHub. Entre março e junho de 2023, o DS Mining coletou 327.016 repositórios do GitHub e analisou 166.867 deles. Com a análise, descobrimos que o número de projetos de Ciência de Dados no Github cresceu 2.210,68% nos últimos 5 anos e que a linguagem de programação mais popular é Python que, por sua vez, tem numpy, pandas, matplotlib e sklearn como módulos mais utilizados |
id |
UFF-2_911b81ed7cb09ea1e63c87b02f97d059 |
---|---|
oai_identifier_str |
oai:app.uff.br:1/30537 |
network_acronym_str |
UFF-2 |
network_name_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository_id_str |
2120 |
spelling |
Análise em larga escala de projetos de ciência de dados open-sourceDadosCiência de dadosMineração de repositóriosGitHubMineração de dados (Computação)Ciência de dadosSoftwareDataData scienceRepository miningO avanço tecnológico das últimas décadas fez com que computadores, sistemas, celulares, wearables e outras mais aplicações estivessem cada vez mais presentes no cotidiano das pessoas. A partir dessa gama de aplicações, um enorme volume de dados é gerado. Neste contexto surge a Ciência de Dados, uma área que tem como objetivo estudar esses dados, que podem ser oriundos de diversos campos, e gerar conhecimento utilizando técnicas de Estatística, Aprendizado de Máquina e Visualização de Dados. Poucos trabalhos da literatura estudam as características da área. Este trabalho utiliza técnicas de análise de dados e mineração de repositórios para entender as práticas e características de projetos do campo de Ciência de Dados. Para isso criamos o DS Mining, uma aplicação que realiza, em larga escala, a coleta, filtragem, extração e análise de projetos públicos de Ciência de Dados disponíveis no site GitHub. Entre março e junho de 2023, o DS Mining coletou 327.016 repositórios do GitHub e analisou 166.867 deles. Com a análise, descobrimos que o número de projetos de Ciência de Dados no Github cresceu 2.210,68% nos últimos 5 anos e que a linguagem de programação mais popular é Python que, por sua vez, tem numpy, pandas, matplotlib e sklearn como módulos mais utilizadosTechnological advances in recent decades have made computers, systems, cell phones, wearables and other applications increasingly present in people’s daily lives. A huge data volume is generated from a range of applications. Within this context, Data Science emerges, an area that aims to study data from different fields, and to generate knowledge using Statistics, Machine Learning and Data Visualization techniques. Few works in the literature study the characteristics of the area. This study uses data analysis and repository mining techniques to understand the practices and characteristics of such projects. In particular, we have created DS Mining to study the problem, an application that performs, on a large scale, the collection, filtering, extraction and analysis of public Data Science projects available on the GitHub website. DS Mining collected 327,016 repositories from GitHub and analyzed 166,867 of them between March and June of 2023, . The analysis revealed that the number of Data Science projects on Github has grown by 2,210.68% in the last 5 years and that the most popular programming language is Python, which has numpy, pandas, matplotlib and sklearn as its most used modules83 p.Murta, Vanessa BraganholoOliveira, Daniel Cardoso Moraes deBêdo, Marcos Vinicius NavesSouza, Luam Silva de2023-09-22T17:03:47Z2023-09-22T17:03:47Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfSOUZA, Luam Silva de. Análise em larga escala de projetos de ciência de dados open-source. 2023. 83 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Instituto de Computação, Universidade Federal Fluminense, Niterói, 2023.http://app.uff.br/riuff/handle/1/30537CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2023-09-22T17:03:51Zoai:app.uff.br:1/30537Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202024-08-19T10:59:49.378066Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false |
dc.title.none.fl_str_mv |
Análise em larga escala de projetos de ciência de dados open-source |
title |
Análise em larga escala de projetos de ciência de dados open-source |
spellingShingle |
Análise em larga escala de projetos de ciência de dados open-source Souza, Luam Silva de Dados Ciência de dados Mineração de repositórios GitHub Mineração de dados (Computação) Ciência de dados Software Data Data science Repository mining |
title_short |
Análise em larga escala de projetos de ciência de dados open-source |
title_full |
Análise em larga escala de projetos de ciência de dados open-source |
title_fullStr |
Análise em larga escala de projetos de ciência de dados open-source |
title_full_unstemmed |
Análise em larga escala de projetos de ciência de dados open-source |
title_sort |
Análise em larga escala de projetos de ciência de dados open-source |
author |
Souza, Luam Silva de |
author_facet |
Souza, Luam Silva de |
author_role |
author |
dc.contributor.none.fl_str_mv |
Murta, Vanessa Braganholo Oliveira, Daniel Cardoso Moraes de Bêdo, Marcos Vinicius Naves |
dc.contributor.author.fl_str_mv |
Souza, Luam Silva de |
dc.subject.por.fl_str_mv |
Dados Ciência de dados Mineração de repositórios GitHub Mineração de dados (Computação) Ciência de dados Software Data Data science Repository mining |
topic |
Dados Ciência de dados Mineração de repositórios GitHub Mineração de dados (Computação) Ciência de dados Software Data Data science Repository mining |
description |
O avanço tecnológico das últimas décadas fez com que computadores, sistemas, celulares, wearables e outras mais aplicações estivessem cada vez mais presentes no cotidiano das pessoas. A partir dessa gama de aplicações, um enorme volume de dados é gerado. Neste contexto surge a Ciência de Dados, uma área que tem como objetivo estudar esses dados, que podem ser oriundos de diversos campos, e gerar conhecimento utilizando técnicas de Estatística, Aprendizado de Máquina e Visualização de Dados. Poucos trabalhos da literatura estudam as características da área. Este trabalho utiliza técnicas de análise de dados e mineração de repositórios para entender as práticas e características de projetos do campo de Ciência de Dados. Para isso criamos o DS Mining, uma aplicação que realiza, em larga escala, a coleta, filtragem, extração e análise de projetos públicos de Ciência de Dados disponíveis no site GitHub. Entre março e junho de 2023, o DS Mining coletou 327.016 repositórios do GitHub e analisou 166.867 deles. Com a análise, descobrimos que o número de projetos de Ciência de Dados no Github cresceu 2.210,68% nos últimos 5 anos e que a linguagem de programação mais popular é Python que, por sua vez, tem numpy, pandas, matplotlib e sklearn como módulos mais utilizados |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-09-22T17:03:47Z 2023-09-22T17:03:47Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
SOUZA, Luam Silva de. Análise em larga escala de projetos de ciência de dados open-source. 2023. 83 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Instituto de Computação, Universidade Federal Fluminense, Niterói, 2023. http://app.uff.br/riuff/handle/1/30537 |
identifier_str_mv |
SOUZA, Luam Silva de. Análise em larga escala de projetos de ciência de dados open-source. 2023. 83 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Instituto de Computação, Universidade Federal Fluminense, Niterói, 2023. |
url |
http://app.uff.br/riuff/handle/1/30537 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
CC-BY-SA info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
CC-BY-SA |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF) instname:Universidade Federal Fluminense (UFF) instacron:UFF |
instname_str |
Universidade Federal Fluminense (UFF) |
instacron_str |
UFF |
institution |
UFF |
reponame_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
collection |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF) |
repository.mail.fl_str_mv |
riuff@id.uff.br |
_version_ |
1811823630612430848 |