Understanding the testing culture of machine learning projects on Github.

Detalhes bibliográficos
Autor(a) principal: SANTOS, Wesley Matteus Araújo dos.
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFCG
Texto Completo: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29359
Resumo: Nos últimos anos, o uso de aprendizado de máquina aumentou em diversas indústrias, mostrando seu notável potencial para resolver tanto problemas antigos como emergentes em uma escala nunca antes vista. No entanto, apesar dos esforços na produção de modelos novos e melhorados, bem como metodologias de treinamento mais confiáveis, pouco se sabe sobre como esses softwares estão sendo testados. Neste trabalho, investigamos a adoção de bibliotecas Python para, ou relacionadas, a testes automatizados em mais de 290 repositórios de aprendizado de máquina no Github. Nós também comparamos repositórios que usam e não usam essas ferramentas, em termos de métricas de qualidade, e estudamos sua cobertura de código. Como resultado, 28 bibliotecas usadas para fins de suporte a testes foram identificadas e 65,19% de todos os projetos adotaram pelo menos uma delas. Nós também encontramos que projetos de aprendizagem por reforço e de análise/visualização de dados têm as maiores adoções de testes automatizados, e que unittest, pytest e doctest são as bibliotecas mais utilizadas em nosso corpus. Além disso, descobrimos que metade dos projetos que usam pelo menos uma biblioteca de testes, tem menos code smells (48,28% em mediana) e, em média, eles têm menos vulnerabilidades (71,42%).
id UFCG_7ba9d6d94be023af9946605c4c214abe
oai_identifier_str oai:localhost:riufcg/29359
network_acronym_str UFCG
network_name_str Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str 4851
spelling Understanding the testing culture of machine learning projects on Github.Understanding the testing culture of machine learning projects on Github.GithubAprendizado de máquinaTeste de softwareBiblioteca PythonRepositórios de aprendizado de máquinaMachine learningSoftware testingPython libraryMachine learning repositoriesCiência da Computação.Nos últimos anos, o uso de aprendizado de máquina aumentou em diversas indústrias, mostrando seu notável potencial para resolver tanto problemas antigos como emergentes em uma escala nunca antes vista. No entanto, apesar dos esforços na produção de modelos novos e melhorados, bem como metodologias de treinamento mais confiáveis, pouco se sabe sobre como esses softwares estão sendo testados. Neste trabalho, investigamos a adoção de bibliotecas Python para, ou relacionadas, a testes automatizados em mais de 290 repositórios de aprendizado de máquina no Github. Nós também comparamos repositórios que usam e não usam essas ferramentas, em termos de métricas de qualidade, e estudamos sua cobertura de código. Como resultado, 28 bibliotecas usadas para fins de suporte a testes foram identificadas e 65,19% de todos os projetos adotaram pelo menos uma delas. Nós também encontramos que projetos de aprendizagem por reforço e de análise/visualização de dados têm as maiores adoções de testes automatizados, e que unittest, pytest e doctest são as bibliotecas mais utilizadas em nosso corpus. Além disso, descobrimos que metade dos projetos que usam pelo menos uma biblioteca de testes, tem menos code smells (48,28% em mediana) e, em média, eles têm menos vulnerabilidades (71,42%).In the last few years, the use of machine learning has spiked in several industries, showing its remarkable potential for solving both old and emergent problems on a scale never seen before. However, despite the eforts on producing new and improved models, as well as more reliable training methodologies, little is known about how these softwares are being tested. In this paper, we investigate the adoption of Python libraries for or related to automated testing on more than 290 machine learning repositories on Github. We also compare repositories that do and do not use those tools, in terms of quality metrics, and study their code coverage. As a result, 28 libraries used for testing support purposes were identiied and 65.19% of all projects adopted at least one of them. We also found that reinforcement learning and data analysis/visualization projects have the highest adoptions of automated testing, and that unittest, pytest and doctest are the most used libraries in our corpus. Furthermore, we found that half of the projects that use at least one testing library, have less code smells (48.28% in median) and, on average, they have less vulnerabilities (71.42%).Universidade Federal de Campina GrandeBrasilCentro de Engenharia Elétrica e Informática - CEEIUFCGALVES, Everton Leandro Galdino.ALVES, E. L. G.http://lattes.cnpq.br/2793969744497453ALMEIDA, Carlos Wilson Dantas de.MASSONI, Tiago Lima.SANTOS, Wesley Matteus Araújo dos.2023-02-142023-04-11T17:52:55Z2023-04-112023-04-11T17:52:55Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesishttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29359SANTOS, Wesley Matteus Araújo dos. Understanding the testing culture of machine learning projects on Github. 2023. 11f. (Trabalho de Conclusão de Curso - Artigo), Curso de Bacharelado em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande – Paraíba - Brasil, 2023. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29359porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCG2023-04-11T17:53:31Zoai:localhost:riufcg/29359Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512023-04-11T17:53:31Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.none.fl_str_mv Understanding the testing culture of machine learning projects on Github.
Understanding the testing culture of machine learning projects on Github.
title Understanding the testing culture of machine learning projects on Github.
spellingShingle Understanding the testing culture of machine learning projects on Github.
SANTOS, Wesley Matteus Araújo dos.
Github
Aprendizado de máquina
Teste de software
Biblioteca Python
Repositórios de aprendizado de máquina
Machine learning
Software testing
Python library
Machine learning repositories
Ciência da Computação.
title_short Understanding the testing culture of machine learning projects on Github.
title_full Understanding the testing culture of machine learning projects on Github.
title_fullStr Understanding the testing culture of machine learning projects on Github.
title_full_unstemmed Understanding the testing culture of machine learning projects on Github.
title_sort Understanding the testing culture of machine learning projects on Github.
author SANTOS, Wesley Matteus Araújo dos.
author_facet SANTOS, Wesley Matteus Araújo dos.
author_role author
dc.contributor.none.fl_str_mv ALVES, Everton Leandro Galdino.
ALVES, E. L. G.
http://lattes.cnpq.br/2793969744497453
ALMEIDA, Carlos Wilson Dantas de.
MASSONI, Tiago Lima.
dc.contributor.author.fl_str_mv SANTOS, Wesley Matteus Araújo dos.
dc.subject.por.fl_str_mv Github
Aprendizado de máquina
Teste de software
Biblioteca Python
Repositórios de aprendizado de máquina
Machine learning
Software testing
Python library
Machine learning repositories
Ciência da Computação.
topic Github
Aprendizado de máquina
Teste de software
Biblioteca Python
Repositórios de aprendizado de máquina
Machine learning
Software testing
Python library
Machine learning repositories
Ciência da Computação.
description Nos últimos anos, o uso de aprendizado de máquina aumentou em diversas indústrias, mostrando seu notável potencial para resolver tanto problemas antigos como emergentes em uma escala nunca antes vista. No entanto, apesar dos esforços na produção de modelos novos e melhorados, bem como metodologias de treinamento mais confiáveis, pouco se sabe sobre como esses softwares estão sendo testados. Neste trabalho, investigamos a adoção de bibliotecas Python para, ou relacionadas, a testes automatizados em mais de 290 repositórios de aprendizado de máquina no Github. Nós também comparamos repositórios que usam e não usam essas ferramentas, em termos de métricas de qualidade, e estudamos sua cobertura de código. Como resultado, 28 bibliotecas usadas para fins de suporte a testes foram identificadas e 65,19% de todos os projetos adotaram pelo menos uma delas. Nós também encontramos que projetos de aprendizagem por reforço e de análise/visualização de dados têm as maiores adoções de testes automatizados, e que unittest, pytest e doctest são as bibliotecas mais utilizadas em nosso corpus. Além disso, descobrimos que metade dos projetos que usam pelo menos uma biblioteca de testes, tem menos code smells (48,28% em mediana) e, em média, eles têm menos vulnerabilidades (71,42%).
publishDate 2023
dc.date.none.fl_str_mv 2023-02-14
2023-04-11T17:52:55Z
2023-04-11
2023-04-11T17:52:55Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29359
SANTOS, Wesley Matteus Araújo dos. Understanding the testing culture of machine learning projects on Github. 2023. 11f. (Trabalho de Conclusão de Curso - Artigo), Curso de Bacharelado em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande – Paraíba - Brasil, 2023. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29359
url http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29359
identifier_str_mv SANTOS, Wesley Matteus Araújo dos. Understanding the testing culture of machine learning projects on Github. 2023. 11f. (Trabalho de Conclusão de Curso - Artigo), Curso de Bacharelado em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande – Paraíba - Brasil, 2023. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29359
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
UFCG
publisher.none.fl_str_mv Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
UFCG
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFCG
instname:Universidade Federal de Campina Grande (UFCG)
instacron:UFCG
instname_str Universidade Federal de Campina Grande (UFCG)
instacron_str UFCG
institution UFCG
reponame_str Biblioteca Digital de Teses e Dissertações da UFCG
collection Biblioteca Digital de Teses e Dissertações da UFCG
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br
_version_ 1809744572733980672