Agrupamento de bugs de software a partir do modelo de linguagem pré-treinado BERT e métodos de clustering

Detalhes bibliográficos
Autor(a) principal: Luna, Ryan Camargo
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/29092
Resumo: A necessidade de manutenção de software após sua implantação, ou mesmo a dificuldade dos usuários em usar um aplicativo de software é uma realidade até os dias atuais. Um problema de usuário ou bug de software, trata-se de um relato de um usuário de que determinado procedimento do sistema não funciona como o esperado. Algumas vezes o fato relatado se refere a um problema a ser resolvido, seja de implementação, de configuração do software, de falta de conhecimento do usuário, o qual já ocorreu e teve sua solução documentada. Esse fato facilita e agiliza o atendimento por parte do pessoal do suporte, não sendo necessário enviar o problema para outros departamentos da empresa ou investir muito tempo na sua solução. Sendo assim, o presente trabalho objetiva classificar esses problemas de software com base em textos de solicitações de usuários ao departamento de suporte, a fim de retornar possíveis soluções de forma rápida. Para isso foi criada uma base de dados de bugs de software na língua portuguesa, sobre a qual foram aplicados métodos de Processamento de Linguagem Natural (PLN) para realizar o pré-processamento e a representação textual dos textos de bugs. A representação textual ocorreu pela aplicação do modelo pré-treinado contextualizado Bidirectional Encoder Representations from Transformers (BERT) em sua versão BERT_base. A representação dos textos foi usada na aplicação do método de agrupamento Density-Based Clustering Based on Connected Regions with High Density (DBSCAN), a fim de classificá-los. Após realizar testes com diferentes valores de hiperparâmetros e métodos de redução de dimensionalidade, os resultados revelaram que não existe uma estrutura subjacente a partir da representação de dados aplicada. Uma hipótese para o resultado alcançado é a de que o modelo pré-treinado aplicado não é capaz de representar adequadamente o contexto dos textos de bugs em português. Trabalhos futuros são propostos buscando encontrar métodos mais eficazes para o objetivo proposto.
id UTFPR-12_4643ce19cad5c7aa4ab09c86a681026d
oai_identifier_str oai:repositorio.utfpr.edu.br:1/29092
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling 2022-07-14T14:16:40Z2022-07-14T14:16:40Z2022-06-21LUNA, Ryan Camargo. Agrupamento de bugs de software a partir do modelo de linguagem pré-treinado BERT e métodos de clustering. 2022. Trabalho de Conclusão de Curso (Tecnologia em Análise e Desenvolvimento de Sistemas) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2022.http://repositorio.utfpr.edu.br/jspui/handle/1/29092A necessidade de manutenção de software após sua implantação, ou mesmo a dificuldade dos usuários em usar um aplicativo de software é uma realidade até os dias atuais. Um problema de usuário ou bug de software, trata-se de um relato de um usuário de que determinado procedimento do sistema não funciona como o esperado. Algumas vezes o fato relatado se refere a um problema a ser resolvido, seja de implementação, de configuração do software, de falta de conhecimento do usuário, o qual já ocorreu e teve sua solução documentada. Esse fato facilita e agiliza o atendimento por parte do pessoal do suporte, não sendo necessário enviar o problema para outros departamentos da empresa ou investir muito tempo na sua solução. Sendo assim, o presente trabalho objetiva classificar esses problemas de software com base em textos de solicitações de usuários ao departamento de suporte, a fim de retornar possíveis soluções de forma rápida. Para isso foi criada uma base de dados de bugs de software na língua portuguesa, sobre a qual foram aplicados métodos de Processamento de Linguagem Natural (PLN) para realizar o pré-processamento e a representação textual dos textos de bugs. A representação textual ocorreu pela aplicação do modelo pré-treinado contextualizado Bidirectional Encoder Representations from Transformers (BERT) em sua versão BERT_base. A representação dos textos foi usada na aplicação do método de agrupamento Density-Based Clustering Based on Connected Regions with High Density (DBSCAN), a fim de classificá-los. Após realizar testes com diferentes valores de hiperparâmetros e métodos de redução de dimensionalidade, os resultados revelaram que não existe uma estrutura subjacente a partir da representação de dados aplicada. Uma hipótese para o resultado alcançado é a de que o modelo pré-treinado aplicado não é capaz de representar adequadamente o contexto dos textos de bugs em português. Trabalhos futuros são propostos buscando encontrar métodos mais eficazes para o objetivo proposto.The need of software maintenance after its implementation, even the user’s difficulties in using a software application is a reality to this day. A user’s problem or software bug, it is a user’s relate that a particular procedure of the system didn’t work as expected. Some times the related fact concerns to a problem to be solved (e.g. of implementation, configuration of software, lack of users expertise), which have been occurred and had its solution documented. This fact facilitates and speeds up the service from the support team, being not necessary to send the problem to others enterprise departments or spend a lot of time in its solution. Therefore, the present work aims to classify these software problems based in text of users requirements to the support department, in order to find potential solutions rapidly. For this it was created a data base of software bugs in Portuguese, on which the PLN methods were applied to perform the pre-processing and the textual representation of texts of bugs. The textual representation occurred by applying the contextualized pre-trained model BERT in its BERT_base version. The representation of the texts was used in the application of the clustering method DBSCAN, in order to classify them. After performing tests with different hyperparameter values and dimensionality reduction methods, the results revealed that there is no underlying structure from the applied data representation. One hypothesis for the result achieved is that the pre-trained model applied is not able to adequately represent the context of bugs texts in Portuguese. Future works are proposed seeking to find more effective methods for the proposed objective.porUniversidade Tecnológica Federal do ParanáPato BrancoTecnologia em Análise e Desenvolvimento de SistemasUTFPRBrasilDepartamento Acadêmico de Informáticahttps://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOProcessamento de linguagem natural (Computação)Falhas de sistemas de computaçãoSoftware - ManutençãoNatural language processing (Computer science)Computer system failuresSoftware maintenanceAgrupamento de bugs de software a partir do modelo de linguagem pré-treinado BERT e métodos de clusteringGrouping of software bugs based on the pre-trained BERT language model and clustering methodsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisPato BrancoFávero, Eliane Maria De BortoliFávero, Eliane Maria De BortoliCasanova, DalcimarBrito, Robison CrisLuna, Ryan Camargoreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRORIGINALclusteringbugssoftwarebert.pdfclusteringbugssoftwarebert.pdfapplication/pdf4227241http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29092/1/clusteringbugssoftwarebert.pdf38786b0ebc50b7d1537a4d4576ceffc0MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29092/2/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD52TEXTclusteringbugssoftwarebert.pdf.txtclusteringbugssoftwarebert.pdf.txtExtracted texttext/plain117234http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29092/3/clusteringbugssoftwarebert.pdf.txt128d1f14bdcdbe26100c051f0b869400MD53THUMBNAILclusteringbugssoftwarebert.pdf.jpgclusteringbugssoftwarebert.pdf.jpgGenerated Thumbnailimage/jpeg1206http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29092/4/clusteringbugssoftwarebert.pdf.jpg27daef543a12d88474e86ab28d7e33b1MD541/290922022-07-15 03:06:12.065oai:repositorio.utfpr.edu.br:1/29092TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2022-07-15T06:06:12Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv Agrupamento de bugs de software a partir do modelo de linguagem pré-treinado BERT e métodos de clustering
dc.title.alternative.pt_BR.fl_str_mv Grouping of software bugs based on the pre-trained BERT language model and clustering methods
title Agrupamento de bugs de software a partir do modelo de linguagem pré-treinado BERT e métodos de clustering
spellingShingle Agrupamento de bugs de software a partir do modelo de linguagem pré-treinado BERT e métodos de clustering
Luna, Ryan Camargo
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Processamento de linguagem natural (Computação)
Falhas de sistemas de computação
Software - Manutenção
Natural language processing (Computer science)
Computer system failures
Software maintenance
title_short Agrupamento de bugs de software a partir do modelo de linguagem pré-treinado BERT e métodos de clustering
title_full Agrupamento de bugs de software a partir do modelo de linguagem pré-treinado BERT e métodos de clustering
title_fullStr Agrupamento de bugs de software a partir do modelo de linguagem pré-treinado BERT e métodos de clustering
title_full_unstemmed Agrupamento de bugs de software a partir do modelo de linguagem pré-treinado BERT e métodos de clustering
title_sort Agrupamento de bugs de software a partir do modelo de linguagem pré-treinado BERT e métodos de clustering
author Luna, Ryan Camargo
author_facet Luna, Ryan Camargo
author_role author
dc.contributor.advisor1.fl_str_mv Fávero, Eliane Maria De Bortoli
dc.contributor.referee1.fl_str_mv Fávero, Eliane Maria De Bortoli
dc.contributor.referee2.fl_str_mv Casanova, Dalcimar
dc.contributor.referee3.fl_str_mv Brito, Robison Cris
dc.contributor.author.fl_str_mv Luna, Ryan Camargo
contributor_str_mv Fávero, Eliane Maria De Bortoli
Fávero, Eliane Maria De Bortoli
Casanova, Dalcimar
Brito, Robison Cris
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Processamento de linguagem natural (Computação)
Falhas de sistemas de computação
Software - Manutenção
Natural language processing (Computer science)
Computer system failures
Software maintenance
dc.subject.por.fl_str_mv Processamento de linguagem natural (Computação)
Falhas de sistemas de computação
Software - Manutenção
Natural language processing (Computer science)
Computer system failures
Software maintenance
description A necessidade de manutenção de software após sua implantação, ou mesmo a dificuldade dos usuários em usar um aplicativo de software é uma realidade até os dias atuais. Um problema de usuário ou bug de software, trata-se de um relato de um usuário de que determinado procedimento do sistema não funciona como o esperado. Algumas vezes o fato relatado se refere a um problema a ser resolvido, seja de implementação, de configuração do software, de falta de conhecimento do usuário, o qual já ocorreu e teve sua solução documentada. Esse fato facilita e agiliza o atendimento por parte do pessoal do suporte, não sendo necessário enviar o problema para outros departamentos da empresa ou investir muito tempo na sua solução. Sendo assim, o presente trabalho objetiva classificar esses problemas de software com base em textos de solicitações de usuários ao departamento de suporte, a fim de retornar possíveis soluções de forma rápida. Para isso foi criada uma base de dados de bugs de software na língua portuguesa, sobre a qual foram aplicados métodos de Processamento de Linguagem Natural (PLN) para realizar o pré-processamento e a representação textual dos textos de bugs. A representação textual ocorreu pela aplicação do modelo pré-treinado contextualizado Bidirectional Encoder Representations from Transformers (BERT) em sua versão BERT_base. A representação dos textos foi usada na aplicação do método de agrupamento Density-Based Clustering Based on Connected Regions with High Density (DBSCAN), a fim de classificá-los. Após realizar testes com diferentes valores de hiperparâmetros e métodos de redução de dimensionalidade, os resultados revelaram que não existe uma estrutura subjacente a partir da representação de dados aplicada. Uma hipótese para o resultado alcançado é a de que o modelo pré-treinado aplicado não é capaz de representar adequadamente o contexto dos textos de bugs em português. Trabalhos futuros são propostos buscando encontrar métodos mais eficazes para o objetivo proposto.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-07-14T14:16:40Z
dc.date.available.fl_str_mv 2022-07-14T14:16:40Z
dc.date.issued.fl_str_mv 2022-06-21
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv LUNA, Ryan Camargo. Agrupamento de bugs de software a partir do modelo de linguagem pré-treinado BERT e métodos de clustering. 2022. Trabalho de Conclusão de Curso (Tecnologia em Análise e Desenvolvimento de Sistemas) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2022.
dc.identifier.uri.fl_str_mv http://repositorio.utfpr.edu.br/jspui/handle/1/29092
identifier_str_mv LUNA, Ryan Camargo. Agrupamento de bugs de software a partir do modelo de linguagem pré-treinado BERT e métodos de clustering. 2022. Trabalho de Conclusão de Curso (Tecnologia em Análise e Desenvolvimento de Sistemas) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2022.
url http://repositorio.utfpr.edu.br/jspui/handle/1/29092
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Pato Branco
dc.publisher.program.fl_str_mv Tecnologia em Análise e Desenvolvimento de Sistemas
dc.publisher.initials.fl_str_mv UTFPR
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Departamento Acadêmico de Informática
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Pato Branco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29092/1/clusteringbugssoftwarebert.pdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29092/2/license.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29092/3/clusteringbugssoftwarebert.pdf.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29092/4/clusteringbugssoftwarebert.pdf.jpg
bitstream.checksum.fl_str_mv 38786b0ebc50b7d1537a4d4576ceffc0
b9d82215ab23456fa2d8b49c5df1b95b
128d1f14bdcdbe26100c051f0b869400
27daef543a12d88474e86ab28d7e33b1
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_ 1805923121137451008