Um modelo de classificação de documentação para novatos em projetos de software livre

Detalhes bibliográficos
Autor(a) principal: Dias, Luiz Felipe Fronchetti
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-19012024-181048/
Resumo: Projetos de software livre contam com contribuições voluntárias para se manterem ativos. Embora importantes para sustentabilidade de projetos de software livre, novos contribuidores tendem a enfrentar dificuldades ao ingressar em projetos neste contexto. O acúmulo de dificuldades tende a influenciar na desistência da participação dos novos contribuidores, que acabam por não contribuir com os projetos. Entre as dificuldades constatadas na literatura, se encontram barreiras relacionadas a problemas na documentação dos projetos que, muitas vezes, não correspondem às necessidades que novos contribuidores enfrentam durante o processo de contribuição. Esta pesquisa se concentra na construção de um modelo de classificação capaz de identificar parágrafos em arquivos de documentação de projetos de software livre que sejam relevantes a novos contribuidores durante o processo de contribuição. Seis categorias de informação conhecidas por serem relevantes a novos contribuidores foram definidas como escopo para classificação dos arquivos de documentação. Entre as informações compreendias pelas categorias, se encontram tópicos como a maneira de lidar com código, a submissão das contribuições e o contato com a comunidade. Arquivos de contribuição (CONTRIBUTING.md) de 9.514 mil projetos de software livre foram extraídos da plataforma de codificação GitHub, dos quais 500 foram selecionados e seus parágrafos analisados qualitativamente para compor a amostra de treinamento do classificador. Diferentes algoritmos de classificação foram treinados, e o classificador LinearSVC foi escolhido para treinar o modelo de classificação final (f-measure: 0.651). O modelo gerado foi então utilizado para predição dos parágrafos dos demais projetos extraídos, e uma amostra das predições foi avaliada através de um questionário com desenvolvedores. Através deste estudo, foi possível observar que a grande maioria dos projetos extraídos (63%) sequer forneciam o arquivo de contribuição analisado em seus repositórios de código. Dos projetos que continham um arquivo de contribuição, a grande maioria (77%) apresentaram apenas entre duas a quatro categorias de informação relevantes a novos contribuidores. Com 74% das predições sendo consideradas extremamente ou ligeiramente adequadas pelos desenvolvedores no questionário, tais resultados indicam a necessidade de um melhor suporte a novatos nos arquivos de contribuição de projetos de software livre.
id USP_c01fddb279977aaf0c44c2b51b522615
oai_identifier_str oai:teses.usp.br:tde-19012024-181048
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Um modelo de classificação de documentação para novatos em projetos de software livreA classification model of documentation relevant for newcomers in open-source projectsAnálise de documentaçãoDocumentation analysisFree/libre and open source softwarenewcomersNovatosSoftware livre e de código abertoProjetos de software livre contam com contribuições voluntárias para se manterem ativos. Embora importantes para sustentabilidade de projetos de software livre, novos contribuidores tendem a enfrentar dificuldades ao ingressar em projetos neste contexto. O acúmulo de dificuldades tende a influenciar na desistência da participação dos novos contribuidores, que acabam por não contribuir com os projetos. Entre as dificuldades constatadas na literatura, se encontram barreiras relacionadas a problemas na documentação dos projetos que, muitas vezes, não correspondem às necessidades que novos contribuidores enfrentam durante o processo de contribuição. Esta pesquisa se concentra na construção de um modelo de classificação capaz de identificar parágrafos em arquivos de documentação de projetos de software livre que sejam relevantes a novos contribuidores durante o processo de contribuição. Seis categorias de informação conhecidas por serem relevantes a novos contribuidores foram definidas como escopo para classificação dos arquivos de documentação. Entre as informações compreendias pelas categorias, se encontram tópicos como a maneira de lidar com código, a submissão das contribuições e o contato com a comunidade. Arquivos de contribuição (CONTRIBUTING.md) de 9.514 mil projetos de software livre foram extraídos da plataforma de codificação GitHub, dos quais 500 foram selecionados e seus parágrafos analisados qualitativamente para compor a amostra de treinamento do classificador. Diferentes algoritmos de classificação foram treinados, e o classificador LinearSVC foi escolhido para treinar o modelo de classificação final (f-measure: 0.651). O modelo gerado foi então utilizado para predição dos parágrafos dos demais projetos extraídos, e uma amostra das predições foi avaliada através de um questionário com desenvolvedores. Através deste estudo, foi possível observar que a grande maioria dos projetos extraídos (63%) sequer forneciam o arquivo de contribuição analisado em seus repositórios de código. Dos projetos que continham um arquivo de contribuição, a grande maioria (77%) apresentaram apenas entre duas a quatro categorias de informação relevantes a novos contribuidores. Com 74% das predições sendo consideradas extremamente ou ligeiramente adequadas pelos desenvolvedores no questionário, tais resultados indicam a necessidade de um melhor suporte a novatos nos arquivos de contribuição de projetos de software livre.Open-source projects depend on newcomers to remain active. Although important for the sustainability of open source projects, new contributors face difficulties joining projects in this context. The increase in difficulties influences newcomers to give up contributing to the projects. Among the difficulties found in the literature, there are barriers related to problems in the documentation files of these projects, which do not support new contributors\' needs while attempting to contribute to a project. Our research focuses on building a classification model capable of identifying paragraphs in documentation files of open-source projects relevant to new contributors during their contribution process. Six categories of information relevant to newcomers were used to classify the documentation files. Among the information comprised by these categories, topics such as how to deal with code, the submission of contributions, and how newcomers should contact the community were analyzed. Contribution files (CONTRIBUTING.md) of 9,514 open source projects were extracted from the GitHub platform, of which 500 were selected and their paragraphs analyzed qualitatively to compose the classifier\'s training sample. Different classification algorithms were trained, and the LinearSVC classifier was chosen to train the final classification model (f-measure: 0.651). The final model was then used to predict the paragraphs of the remaining projects, and a sample of the predictions was evaluated through a questionnaire with software developers. Through this study, it was possible to observe that most of the open-source projects analyzed (63%) did not even provide a contribution file in their code repositories. From the projects that contained a contribution file, the vast majority (77%) presented between two to four categories of information relevant to newcomers. With 74% of the predictions considered extremely or slightly adequate by the developers in the questionnaire, such results indicate the need for better support for newcomers in the contribution files of open-source projects.Biblioteca Digitais de Teses e Dissertações da USPGerosa, Marco AurélioDias, Luiz Felipe Fronchetti2023-05-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-19012024-181048/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-01-24T16:28:02Zoai:teses.usp.br:tde-19012024-181048Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-01-24T16:28:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Um modelo de classificação de documentação para novatos em projetos de software livre
A classification model of documentation relevant for newcomers in open-source projects
title Um modelo de classificação de documentação para novatos em projetos de software livre
spellingShingle Um modelo de classificação de documentação para novatos em projetos de software livre
Dias, Luiz Felipe Fronchetti
Análise de documentação
Documentation analysis
Free/libre and open source software
newcomers
Novatos
Software livre e de código aberto
title_short Um modelo de classificação de documentação para novatos em projetos de software livre
title_full Um modelo de classificação de documentação para novatos em projetos de software livre
title_fullStr Um modelo de classificação de documentação para novatos em projetos de software livre
title_full_unstemmed Um modelo de classificação de documentação para novatos em projetos de software livre
title_sort Um modelo de classificação de documentação para novatos em projetos de software livre
author Dias, Luiz Felipe Fronchetti
author_facet Dias, Luiz Felipe Fronchetti
author_role author
dc.contributor.none.fl_str_mv Gerosa, Marco Aurélio
dc.contributor.author.fl_str_mv Dias, Luiz Felipe Fronchetti
dc.subject.por.fl_str_mv Análise de documentação
Documentation analysis
Free/libre and open source software
newcomers
Novatos
Software livre e de código aberto
topic Análise de documentação
Documentation analysis
Free/libre and open source software
newcomers
Novatos
Software livre e de código aberto
description Projetos de software livre contam com contribuições voluntárias para se manterem ativos. Embora importantes para sustentabilidade de projetos de software livre, novos contribuidores tendem a enfrentar dificuldades ao ingressar em projetos neste contexto. O acúmulo de dificuldades tende a influenciar na desistência da participação dos novos contribuidores, que acabam por não contribuir com os projetos. Entre as dificuldades constatadas na literatura, se encontram barreiras relacionadas a problemas na documentação dos projetos que, muitas vezes, não correspondem às necessidades que novos contribuidores enfrentam durante o processo de contribuição. Esta pesquisa se concentra na construção de um modelo de classificação capaz de identificar parágrafos em arquivos de documentação de projetos de software livre que sejam relevantes a novos contribuidores durante o processo de contribuição. Seis categorias de informação conhecidas por serem relevantes a novos contribuidores foram definidas como escopo para classificação dos arquivos de documentação. Entre as informações compreendias pelas categorias, se encontram tópicos como a maneira de lidar com código, a submissão das contribuições e o contato com a comunidade. Arquivos de contribuição (CONTRIBUTING.md) de 9.514 mil projetos de software livre foram extraídos da plataforma de codificação GitHub, dos quais 500 foram selecionados e seus parágrafos analisados qualitativamente para compor a amostra de treinamento do classificador. Diferentes algoritmos de classificação foram treinados, e o classificador LinearSVC foi escolhido para treinar o modelo de classificação final (f-measure: 0.651). O modelo gerado foi então utilizado para predição dos parágrafos dos demais projetos extraídos, e uma amostra das predições foi avaliada através de um questionário com desenvolvedores. Através deste estudo, foi possível observar que a grande maioria dos projetos extraídos (63%) sequer forneciam o arquivo de contribuição analisado em seus repositórios de código. Dos projetos que continham um arquivo de contribuição, a grande maioria (77%) apresentaram apenas entre duas a quatro categorias de informação relevantes a novos contribuidores. Com 74% das predições sendo consideradas extremamente ou ligeiramente adequadas pelos desenvolvedores no questionário, tais resultados indicam a necessidade de um melhor suporte a novatos nos arquivos de contribuição de projetos de software livre.
publishDate 2023
dc.date.none.fl_str_mv 2023-05-04
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/45/45134/tde-19012024-181048/
url https://www.teses.usp.br/teses/disponiveis/45/45134/tde-19012024-181048/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809090850956771328