[en] ISSUES THAT LEAD TO CODE TECHNICAL DEBT IN MACHINE LEARNING SYSTEMS

Detalhes bibliográficos
Autor(a) principal: RODRIGO GALDINO XIMENES
Data de Publicação: 2024
Tipo de documento: Outros
Idioma: eng
Título da fonte: Repositório Institucional da PUC-RIO (Projeto Maxwell)
Texto Completo: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67941@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67941@2
http://doi.org/10.17771/PUCRio.acad.67941
Resumo: [pt] [Contexto] A dívida técnica (DT) em sistemas de aprendizado de máquina (AM), assim como sua contraparte em engenharia de software (ES), tem o potencial de levar a retrabalhos futuros, representando riscos para produtividade, qualidade e moral da equipe. No entanto, compreender melhor os problemas relacionados ao código que levam à DT em sistemas de AM ainda é um campo em aberto. [Objetivo] Este artigo tem como objetivo identificar e discutir a relevância de problemas que levam a DT no código de AM ao longo do ciclo de vida do AM. [Método] O estudo compilou inicialmente uma lista de problemas potenciais que podem levar à DT no código de AM, analisando as fases do ciclo de vida do AM e suas tarefas típicas. Posteriormente, a lista de problemas foi refinada através da avaliação da prevalência e relevância dos problemas que levam à DT no código de AM por meio de feedback coletado de profissionais da indústria em duas sessões de grupos focais. [Resultados] O estudo compilou uma lista inicial de 34 problemas que potencialmente contribuem para DT em código-fonte de sistemas de AM. Através de duas sessões de grupos focais com nove participantes, esta lista foi refinada para 30 problemas que levam à DT relacionada ao código de AM, sendo 24 considerados altamente relevantes. A fase de pré-processamento de dados foi a mais crítica, com 14 problemas considerados altamente relevantes em potencialmente levar a uma DT grave no código de AM. Cinco problemas foram considerados altamente relevantes na fase de criação e treinamento do modelo e quatro na fase de coleta de dados. A lista final de problemas está disponível para a comunidade. [Conclusão] A lista pode ajudar a aumentar a conscientização sobre os problemas a serem tratados ao longo do ciclo de vida do AM para minimizar a acumulação de DT, ajudando a melhorar a manutenibilidade de sistemas de AM.
id PUC_RIO-1_02ec07a722b93c31e5457c4049727acb
oai_identifier_str oai:MAXWELL.puc-rio.br:67941
network_acronym_str PUC_RIO-1
network_name_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str 534
spelling [en] ISSUES THAT LEAD TO CODE TECHNICAL DEBT IN MACHINE LEARNING SYSTEMS [pt] PROBLEMAS QUE LEVAM A GERAÇÃO DE DÍVIDA TÉCNICA DE CÓDIGO EM SISTEMAS DE APRENDIZADO DE MÁQUINA [pt] GRUPO FOCAL[pt] DUVIDA TECNICA[pt] APRENDIZADO DE MAQUINA[en] FOCUS GROUP[en] TECHNICAL DOUBT[en] MACHINE LEARNING[pt] [Contexto] A dívida técnica (DT) em sistemas de aprendizado de máquina (AM), assim como sua contraparte em engenharia de software (ES), tem o potencial de levar a retrabalhos futuros, representando riscos para produtividade, qualidade e moral da equipe. No entanto, compreender melhor os problemas relacionados ao código que levam à DT em sistemas de AM ainda é um campo em aberto. [Objetivo] Este artigo tem como objetivo identificar e discutir a relevância de problemas que levam a DT no código de AM ao longo do ciclo de vida do AM. [Método] O estudo compilou inicialmente uma lista de problemas potenciais que podem levar à DT no código de AM, analisando as fases do ciclo de vida do AM e suas tarefas típicas. Posteriormente, a lista de problemas foi refinada através da avaliação da prevalência e relevância dos problemas que levam à DT no código de AM por meio de feedback coletado de profissionais da indústria em duas sessões de grupos focais. [Resultados] O estudo compilou uma lista inicial de 34 problemas que potencialmente contribuem para DT em código-fonte de sistemas de AM. Através de duas sessões de grupos focais com nove participantes, esta lista foi refinada para 30 problemas que levam à DT relacionada ao código de AM, sendo 24 considerados altamente relevantes. A fase de pré-processamento de dados foi a mais crítica, com 14 problemas considerados altamente relevantes em potencialmente levar a uma DT grave no código de AM. Cinco problemas foram considerados altamente relevantes na fase de criação e treinamento do modelo e quatro na fase de coleta de dados. A lista final de problemas está disponível para a comunidade. [Conclusão] A lista pode ajudar a aumentar a conscientização sobre os problemas a serem tratados ao longo do ciclo de vida do AM para minimizar a acumulação de DT, ajudando a melhorar a manutenibilidade de sistemas de AM.[en] [Context] Technical debt (TD) in machine learning (ML) systems, much like its counterpart in software engineering (SE), holds the potential to lead to future rework, posing risks to productivity, quality, and team morale. However, better understanding code-related issues leading to TD in ML systems is still a green field. [Objective] This dissertation aims to identify and discuss the relevance of code-related issues leading to TD in ML code throughout the ML life cycle. [Method] Initially, the study generated a list of potential factors that may contribute to accruing TD in ML code. This compilation was achieved by looking at the phases of the ML life cycle along with their usual tasks. Subsequently, the identified issues were refined by evaluating their prevalence and relevance in causing TD in ML code. This refinement process involved soliciting feedback from industry professionals during two focus group sessions. [Results] The study compiled a list of 34 potential issues contributing to TD in the source code of ML systems. Through two focus group sessions with nine participants, this list was refined into 30 issues leading to ML code-related TD, with 24 considered highly relevant. The data pre-processing phase was the most critical, with 14 issues considered highly relevant in potentially leading to severe ML code TD. Five issues were considered highly relevant in the model creation and training phase and four in the data collection phase. The final list of issues is available to the community. [Conclusion] The list can help to raise awareness on issues to be addressed throughout the ML life cycle to minimize accruing TD, helping to improve the maintainability of ML systems.MAXWELLMARCOS KALINOWSKIMARCOS KALINOWSKIMARCOS KALINOWSKIRODRIGO GALDINO XIMENES2024-09-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/otherhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67941@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67941@2http://doi.org/10.17771/PUCRio.acad.67941engreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2024-09-11T00:00:00Zoai:MAXWELL.puc-rio.br:67941Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342024-09-11T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv [en] ISSUES THAT LEAD TO CODE TECHNICAL DEBT IN MACHINE LEARNING SYSTEMS
[pt] PROBLEMAS QUE LEVAM A GERAÇÃO DE DÍVIDA TÉCNICA DE CÓDIGO EM SISTEMAS DE APRENDIZADO DE MÁQUINA
title [en] ISSUES THAT LEAD TO CODE TECHNICAL DEBT IN MACHINE LEARNING SYSTEMS
spellingShingle [en] ISSUES THAT LEAD TO CODE TECHNICAL DEBT IN MACHINE LEARNING SYSTEMS
RODRIGO GALDINO XIMENES
[pt] GRUPO FOCAL
[pt] DUVIDA TECNICA
[pt] APRENDIZADO DE MAQUINA
[en] FOCUS GROUP
[en] TECHNICAL DOUBT
[en] MACHINE LEARNING
title_short [en] ISSUES THAT LEAD TO CODE TECHNICAL DEBT IN MACHINE LEARNING SYSTEMS
title_full [en] ISSUES THAT LEAD TO CODE TECHNICAL DEBT IN MACHINE LEARNING SYSTEMS
title_fullStr [en] ISSUES THAT LEAD TO CODE TECHNICAL DEBT IN MACHINE LEARNING SYSTEMS
title_full_unstemmed [en] ISSUES THAT LEAD TO CODE TECHNICAL DEBT IN MACHINE LEARNING SYSTEMS
title_sort [en] ISSUES THAT LEAD TO CODE TECHNICAL DEBT IN MACHINE LEARNING SYSTEMS
author RODRIGO GALDINO XIMENES
author_facet RODRIGO GALDINO XIMENES
author_role author
dc.contributor.none.fl_str_mv MARCOS KALINOWSKI
MARCOS KALINOWSKI
MARCOS KALINOWSKI
dc.contributor.author.fl_str_mv RODRIGO GALDINO XIMENES
dc.subject.por.fl_str_mv [pt] GRUPO FOCAL
[pt] DUVIDA TECNICA
[pt] APRENDIZADO DE MAQUINA
[en] FOCUS GROUP
[en] TECHNICAL DOUBT
[en] MACHINE LEARNING
topic [pt] GRUPO FOCAL
[pt] DUVIDA TECNICA
[pt] APRENDIZADO DE MAQUINA
[en] FOCUS GROUP
[en] TECHNICAL DOUBT
[en] MACHINE LEARNING
description [pt] [Contexto] A dívida técnica (DT) em sistemas de aprendizado de máquina (AM), assim como sua contraparte em engenharia de software (ES), tem o potencial de levar a retrabalhos futuros, representando riscos para produtividade, qualidade e moral da equipe. No entanto, compreender melhor os problemas relacionados ao código que levam à DT em sistemas de AM ainda é um campo em aberto. [Objetivo] Este artigo tem como objetivo identificar e discutir a relevância de problemas que levam a DT no código de AM ao longo do ciclo de vida do AM. [Método] O estudo compilou inicialmente uma lista de problemas potenciais que podem levar à DT no código de AM, analisando as fases do ciclo de vida do AM e suas tarefas típicas. Posteriormente, a lista de problemas foi refinada através da avaliação da prevalência e relevância dos problemas que levam à DT no código de AM por meio de feedback coletado de profissionais da indústria em duas sessões de grupos focais. [Resultados] O estudo compilou uma lista inicial de 34 problemas que potencialmente contribuem para DT em código-fonte de sistemas de AM. Através de duas sessões de grupos focais com nove participantes, esta lista foi refinada para 30 problemas que levam à DT relacionada ao código de AM, sendo 24 considerados altamente relevantes. A fase de pré-processamento de dados foi a mais crítica, com 14 problemas considerados altamente relevantes em potencialmente levar a uma DT grave no código de AM. Cinco problemas foram considerados altamente relevantes na fase de criação e treinamento do modelo e quatro na fase de coleta de dados. A lista final de problemas está disponível para a comunidade. [Conclusão] A lista pode ajudar a aumentar a conscientização sobre os problemas a serem tratados ao longo do ciclo de vida do AM para minimizar a acumulação de DT, ajudando a melhorar a manutenibilidade de sistemas de AM.
publishDate 2024
dc.date.none.fl_str_mv 2024-09-10
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/other
format other
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67941@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67941@2
http://doi.org/10.17771/PUCRio.acad.67941
url https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67941@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67941@2
http://doi.org/10.17771/PUCRio.acad.67941
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv MAXWELL
publisher.none.fl_str_mv MAXWELL
dc.source.none.fl_str_mv reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)
instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron:PUC_RIO
instname_str Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str PUC_RIO
institution PUC_RIO
reponame_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_ 1814822647177936896