Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação

Detalhes bibliográficos
Autor(a) principal: Paula, Samuel de
Data de Publicação: 2016
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/6024
Resumo: Predizer defeitos em software é uma tarefa difícil, principalmente quando o projeto alvo está em fase inicial de desenvolvimento, pois nessa fase o projeto não possui uma base de dados histórica consolidada que possa ser utilizada para treinar um modelo de predição. Neste caso, é preciso encontrar projetos semelhantes ao projeto alvo para que, a partir de seus dados históricos, modelos de predição possam ser elaborados, essa técnica recebe o nome de predição cruzada de defeitos. Esse trabalho tem como objetivo analisar uma forma alternativa para o agrupamento de projetos. A proposta consiste em agrupar modelos de predição de forma que possam compartilhar seus conjuntos de dados de treinamento. Os agrupamentos foram criados pelo algoritmo de clusterização BSAS (do inglês, Basic Sequential Algorithmic Scheme), utilizando uma medida de correlação denominada MCC (do inglês, Matthews correlation coefficient) para cálculo de semelhança dos modelos. Uma vez agrupados, os dados de treinamento dos modelos podem formar um único conjunto de treinamento, dando origem a modelos de predição cruzada de defeitos. Os resultados obtidos através da análise dos valores de MCC obtidos pelos modelos de predição indicam que os modelos criados possuem baixo desempenho preditivo enquanto que os indicadores utilizados em trabalhos semelhantes indicam modelos com bom desempenho. Portanto, conclui-se que, a medida de correlação MCC é uma medida de desempenho mais robusta que as demais para análise de modelos de predição e que ela contribui para a redução do problema de desbalanceamento de classes.
id UTFPR-12_5d3f880abfae97d5430a79daf47b62c1
oai_identifier_str oai:repositorio.utfpr.edu.br:1/6024
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling 2020-11-09T19:10:30Z2020-11-09T19:10:30Z2016-06-23PAULA, Samuel de. Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação. 2016. 47 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2016.http://repositorio.utfpr.edu.br/jspui/handle/1/6024Predizer defeitos em software é uma tarefa difícil, principalmente quando o projeto alvo está em fase inicial de desenvolvimento, pois nessa fase o projeto não possui uma base de dados histórica consolidada que possa ser utilizada para treinar um modelo de predição. Neste caso, é preciso encontrar projetos semelhantes ao projeto alvo para que, a partir de seus dados históricos, modelos de predição possam ser elaborados, essa técnica recebe o nome de predição cruzada de defeitos. Esse trabalho tem como objetivo analisar uma forma alternativa para o agrupamento de projetos. A proposta consiste em agrupar modelos de predição de forma que possam compartilhar seus conjuntos de dados de treinamento. Os agrupamentos foram criados pelo algoritmo de clusterização BSAS (do inglês, Basic Sequential Algorithmic Scheme), utilizando uma medida de correlação denominada MCC (do inglês, Matthews correlation coefficient) para cálculo de semelhança dos modelos. Uma vez agrupados, os dados de treinamento dos modelos podem formar um único conjunto de treinamento, dando origem a modelos de predição cruzada de defeitos. Os resultados obtidos através da análise dos valores de MCC obtidos pelos modelos de predição indicam que os modelos criados possuem baixo desempenho preditivo enquanto que os indicadores utilizados em trabalhos semelhantes indicam modelos com bom desempenho. Portanto, conclui-se que, a medida de correlação MCC é uma medida de desempenho mais robusta que as demais para análise de modelos de predição e que ela contribui para a redução do problema de desbalanceamento de classes.Defect prediction in software is a difficult task, especially when the target project is in early stage of development, because in this stage the project does not have historical data that can be used to train a prediction model. In this case, it is necessary to find projects that matches to the target project in order to use their historical data. This aproach is named cross-project prediction. This work aims to analyze an alternative method to clustering the projects. Our proposal is to group prediction models so that they can share their sets of training data. The groups were created by clustering algorithm called Basic Sequential Algorithmic Scheme (BSAS), using a measure of correlation known as Matthews Correlation Coefficient (MCC) to compute similarity models. When grouped, the training data models results to a single training set, giving rise to models cross-project prediction. The results obtained by analyzing the MCC values computed by prediction models indicate that the created models have low predictive performance, while the indicators used in similar studies indicate models with good performance. Therefore, we can concluded that the MCC correlation measure is a more robust measure of performance than other prediction models, and it contributes to the reduction of the class imbalance problem.porUniversidade Tecnológica Federal do ParanáCampo MouraoCiência da ComputaçãoUTFPRBrasilDepartamento Acadêmico de ComputaçãoCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOFalhas de sistemas de computaçãoAprendizado do computadorSoftware - ValidaçãoComputer system failuresMachine learningComputer software - ValidationUm estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisCampo MourãoRé, ReginaldoRé, ReginaldoGonçalves, Diego BertoliniWiese, Igor ScaliantePaula, Samuel deinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRTEXTCM_COCIC_2016_1_03.pdf.txtExtracted texttext/plain133878http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6024/1/CM_COCIC_2016_1_03.pdf.txt6020813eac13e80d078b7784db39f8ddMD51THUMBNAILCM_COCIC_2016_1_03.pdf.jpgGenerated Thumbnailimage/jpeg1284http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6024/2/CM_COCIC_2016_1_03.pdf.jpgc053a947c6b27fcc0c95edb8dc912be7MD52ORIGINALCM_COCIC_2016_1_03.pdfapplication/pdf913375http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6024/3/CM_COCIC_2016_1_03.pdf824a701933bb5bf841d6b44f52bc208bMD53LICENSElicense.txttext/plain1291http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6024/4/license.txtdfb14e53a8c6b76b85e77d7a5a3b3809MD541/60242020-11-09 17:10:30.373oai:repositorio.utfpr.edu.br:1/6024IE5hIHF1YWxpZGFkZSBkZSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvciBkYSBwdWJsaWNhw6fDo28sIGF1dG9yaXpvIGEgVVRGUFIgYSB2ZWljdWxhciwgCmF0cmF2w6lzIGRvIFBvcnRhbCBkZSBJbmZvcm1hw6fDo28gZW0gQWNlc3NvIEFiZXJ0byAoUElBQSkgZSBkb3MgQ2F0w6Fsb2dvcyBkYXMgQmlibGlvdGVjYXMgCmRlc3RhIEluc3RpdHVpw6fDo28sIHNlbSByZXNzYXJjaW1lbnRvIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgZGUgYWNvcmRvIGNvbSBhIExlaSBubyA5LjYxMC85OCwgCm8gdGV4dG8gZGVzdGEgb2JyYSwgb2JzZXJ2YW5kbyBhcyBjb25kacOnw7VlcyBkZSBkaXNwb25pYmlsaXphw6fDo28gcmVnaXN0cmFkYXMgbm8gaXRlbSA0IGRvIArigJxUZXJtbyBkZSBBdXRvcml6YcOnw6NvIHBhcmEgUHVibGljYcOnw6NvIGRlIFRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgCkVzcGVjaWFsaXphw6fDo28sIERpc3NlcnRhw6fDtWVzIGUgVGVzZXMgbm8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyAKU2lzdGVtYSBkZSBCaWJsaW90ZWNhcyBkYSBVVEZQUuKAnSwgcGFyYSBmaW5zIGRlIGxlaXR1cmEsIGltcHJlc3PDo28gZS9vdSBkb3dubG9hZCwgdmlzYW5kbyBhIApkaXZ1bGdhw6fDo28gZGEgcHJvZHXDp8OjbyBjaWVudMOtZmljYSBicmFzaWxlaXJhLgoKICBBcyB2aWFzIG9yaWdpbmFpcyBlIGFzc2luYWRhcyBwZWxvKHMpIGF1dG9yKGVzKSBkbyDigJxUZXJtbyBkZSBBdXRvcml6YcOnw6NvIHBhcmEgUHVibGljYcOnw6NvIGRlIApUcmFiYWxob3MgZGUgQ29uY2x1c8OjbyBkZSBDdXJzbyBkZSBHcmFkdWHDp8OjbyBlIEVzcGVjaWFsaXphw6fDo28sIERpc3NlcnRhw6fDtWVzIGUgVGVzZXMgbm8gUG9ydGFsIApkZSBJbmZvcm1hw6fDo28gZSBub3MgQ2F0w6Fsb2dvcyBFbGV0csO0bmljb3MgZG8gU2lzdGVtYSBkZSBCaWJsaW90ZWNhcyBkYSBVVEZQUuKAnSBlIGRhIOKAnERlY2xhcmHDp8OjbyAKZGUgQXV0b3JpYeKAnSBlbmNvbnRyYW0tc2UgYXJxdWl2YWRhcyBuYSBCaWJsaW90ZWNhIGRvIEPDom1wdXMgbm8gcXVhbCBvIHRyYWJhbGhvIGZvaSBkZWZlbmRpZG8uIApObyBjYXNvIGRlIHB1YmxpY2HDp8O1ZXMgZGUgYXV0b3JpYSBjb2xldGl2YSBlIG11bHRpY8OibXB1cywgb3MgZG9jdW1lbnRvcyBmaWNhcsOjbyBzb2IgZ3VhcmRhIGRhIApCaWJsaW90ZWNhIGNvbSBhIHF1YWwgbyDigJxwcmltZWlybyBhdXRvcuKAnSBwb3NzdWEgdsOtbmN1bG8uCg==Repositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2020-11-09T19:10:30Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação
title Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação
spellingShingle Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação
Paula, Samuel de
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Falhas de sistemas de computação
Aprendizado do computador
Software - Validação
Computer system failures
Machine learning
Computer software - Validation
title_short Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação
title_full Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação
title_fullStr Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação
title_full_unstemmed Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação
title_sort Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação
author Paula, Samuel de
author_facet Paula, Samuel de
author_role author
dc.contributor.advisor1.fl_str_mv Ré, Reginaldo
dc.contributor.referee1.fl_str_mv Ré, Reginaldo
dc.contributor.referee2.fl_str_mv Gonçalves, Diego Bertolini
dc.contributor.referee3.fl_str_mv Wiese, Igor Scaliante
dc.contributor.author.fl_str_mv Paula, Samuel de
contributor_str_mv Ré, Reginaldo
Ré, Reginaldo
Gonçalves, Diego Bertolini
Wiese, Igor Scaliante
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Falhas de sistemas de computação
Aprendizado do computador
Software - Validação
Computer system failures
Machine learning
Computer software - Validation
dc.subject.por.fl_str_mv Falhas de sistemas de computação
Aprendizado do computador
Software - Validação
Computer system failures
Machine learning
Computer software - Validation
description Predizer defeitos em software é uma tarefa difícil, principalmente quando o projeto alvo está em fase inicial de desenvolvimento, pois nessa fase o projeto não possui uma base de dados histórica consolidada que possa ser utilizada para treinar um modelo de predição. Neste caso, é preciso encontrar projetos semelhantes ao projeto alvo para que, a partir de seus dados históricos, modelos de predição possam ser elaborados, essa técnica recebe o nome de predição cruzada de defeitos. Esse trabalho tem como objetivo analisar uma forma alternativa para o agrupamento de projetos. A proposta consiste em agrupar modelos de predição de forma que possam compartilhar seus conjuntos de dados de treinamento. Os agrupamentos foram criados pelo algoritmo de clusterização BSAS (do inglês, Basic Sequential Algorithmic Scheme), utilizando uma medida de correlação denominada MCC (do inglês, Matthews correlation coefficient) para cálculo de semelhança dos modelos. Uma vez agrupados, os dados de treinamento dos modelos podem formar um único conjunto de treinamento, dando origem a modelos de predição cruzada de defeitos. Os resultados obtidos através da análise dos valores de MCC obtidos pelos modelos de predição indicam que os modelos criados possuem baixo desempenho preditivo enquanto que os indicadores utilizados em trabalhos semelhantes indicam modelos com bom desempenho. Portanto, conclui-se que, a medida de correlação MCC é uma medida de desempenho mais robusta que as demais para análise de modelos de predição e que ela contribui para a redução do problema de desbalanceamento de classes.
publishDate 2016
dc.date.issued.fl_str_mv 2016-06-23
dc.date.accessioned.fl_str_mv 2020-11-09T19:10:30Z
dc.date.available.fl_str_mv 2020-11-09T19:10:30Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv PAULA, Samuel de. Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação. 2016. 47 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2016.
dc.identifier.uri.fl_str_mv http://repositorio.utfpr.edu.br/jspui/handle/1/6024
identifier_str_mv PAULA, Samuel de. Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação. 2016. 47 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2016.
url http://repositorio.utfpr.edu.br/jspui/handle/1/6024
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Campo Mourao
dc.publisher.program.fl_str_mv Ciência da Computação
dc.publisher.initials.fl_str_mv UTFPR
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Departamento Acadêmico de Computação
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Campo Mourao
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6024/1/CM_COCIC_2016_1_03.pdf.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6024/2/CM_COCIC_2016_1_03.pdf.jpg
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6024/3/CM_COCIC_2016_1_03.pdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6024/4/license.txt
bitstream.checksum.fl_str_mv 6020813eac13e80d078b7784db39f8dd
c053a947c6b27fcc0c95edb8dc912be7
824a701933bb5bf841d6b44f52bc208b
dfb14e53a8c6b76b85e77d7a5a3b3809
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_ 1805923248114761728