Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação
Autor(a) principal: | |
---|---|
Data de Publicação: | 2016 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
Texto Completo: | http://repositorio.utfpr.edu.br/jspui/handle/1/6024 |
Resumo: | Predizer defeitos em software é uma tarefa difícil, principalmente quando o projeto alvo está em fase inicial de desenvolvimento, pois nessa fase o projeto não possui uma base de dados histórica consolidada que possa ser utilizada para treinar um modelo de predição. Neste caso, é preciso encontrar projetos semelhantes ao projeto alvo para que, a partir de seus dados históricos, modelos de predição possam ser elaborados, essa técnica recebe o nome de predição cruzada de defeitos. Esse trabalho tem como objetivo analisar uma forma alternativa para o agrupamento de projetos. A proposta consiste em agrupar modelos de predição de forma que possam compartilhar seus conjuntos de dados de treinamento. Os agrupamentos foram criados pelo algoritmo de clusterização BSAS (do inglês, Basic Sequential Algorithmic Scheme), utilizando uma medida de correlação denominada MCC (do inglês, Matthews correlation coefficient) para cálculo de semelhança dos modelos. Uma vez agrupados, os dados de treinamento dos modelos podem formar um único conjunto de treinamento, dando origem a modelos de predição cruzada de defeitos. Os resultados obtidos através da análise dos valores de MCC obtidos pelos modelos de predição indicam que os modelos criados possuem baixo desempenho preditivo enquanto que os indicadores utilizados em trabalhos semelhantes indicam modelos com bom desempenho. Portanto, conclui-se que, a medida de correlação MCC é uma medida de desempenho mais robusta que as demais para análise de modelos de predição e que ela contribui para a redução do problema de desbalanceamento de classes. |
id |
UTFPR-12_5d3f880abfae97d5430a79daf47b62c1 |
---|---|
oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/6024 |
network_acronym_str |
UTFPR-12 |
network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
repository_id_str |
|
spelling |
2020-11-09T19:10:30Z2020-11-09T19:10:30Z2016-06-23PAULA, Samuel de. Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação. 2016. 47 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2016.http://repositorio.utfpr.edu.br/jspui/handle/1/6024Predizer defeitos em software é uma tarefa difícil, principalmente quando o projeto alvo está em fase inicial de desenvolvimento, pois nessa fase o projeto não possui uma base de dados histórica consolidada que possa ser utilizada para treinar um modelo de predição. Neste caso, é preciso encontrar projetos semelhantes ao projeto alvo para que, a partir de seus dados históricos, modelos de predição possam ser elaborados, essa técnica recebe o nome de predição cruzada de defeitos. Esse trabalho tem como objetivo analisar uma forma alternativa para o agrupamento de projetos. A proposta consiste em agrupar modelos de predição de forma que possam compartilhar seus conjuntos de dados de treinamento. Os agrupamentos foram criados pelo algoritmo de clusterização BSAS (do inglês, Basic Sequential Algorithmic Scheme), utilizando uma medida de correlação denominada MCC (do inglês, Matthews correlation coefficient) para cálculo de semelhança dos modelos. Uma vez agrupados, os dados de treinamento dos modelos podem formar um único conjunto de treinamento, dando origem a modelos de predição cruzada de defeitos. Os resultados obtidos através da análise dos valores de MCC obtidos pelos modelos de predição indicam que os modelos criados possuem baixo desempenho preditivo enquanto que os indicadores utilizados em trabalhos semelhantes indicam modelos com bom desempenho. Portanto, conclui-se que, a medida de correlação MCC é uma medida de desempenho mais robusta que as demais para análise de modelos de predição e que ela contribui para a redução do problema de desbalanceamento de classes.Defect prediction in software is a difficult task, especially when the target project is in early stage of development, because in this stage the project does not have historical data that can be used to train a prediction model. In this case, it is necessary to find projects that matches to the target project in order to use their historical data. This aproach is named cross-project prediction. This work aims to analyze an alternative method to clustering the projects. Our proposal is to group prediction models so that they can share their sets of training data. The groups were created by clustering algorithm called Basic Sequential Algorithmic Scheme (BSAS), using a measure of correlation known as Matthews Correlation Coefficient (MCC) to compute similarity models. When grouped, the training data models results to a single training set, giving rise to models cross-project prediction. The results obtained by analyzing the MCC values computed by prediction models indicate that the created models have low predictive performance, while the indicators used in similar studies indicate models with good performance. Therefore, we can concluded that the MCC correlation measure is a more robust measure of performance than other prediction models, and it contributes to the reduction of the class imbalance problem.porUniversidade Tecnológica Federal do ParanáCampo MouraoCiência da ComputaçãoUTFPRBrasilDepartamento Acadêmico de ComputaçãoCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOFalhas de sistemas de computaçãoAprendizado do computadorSoftware - ValidaçãoComputer system failuresMachine learningComputer software - ValidationUm estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisCampo MourãoRé, ReginaldoRé, ReginaldoGonçalves, Diego BertoliniWiese, Igor ScaliantePaula, Samuel deinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRTEXTCM_COCIC_2016_1_03.pdf.txtExtracted texttext/plain133878http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6024/1/CM_COCIC_2016_1_03.pdf.txt6020813eac13e80d078b7784db39f8ddMD51THUMBNAILCM_COCIC_2016_1_03.pdf.jpgGenerated Thumbnailimage/jpeg1284http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6024/2/CM_COCIC_2016_1_03.pdf.jpgc053a947c6b27fcc0c95edb8dc912be7MD52ORIGINALCM_COCIC_2016_1_03.pdfapplication/pdf913375http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6024/3/CM_COCIC_2016_1_03.pdf824a701933bb5bf841d6b44f52bc208bMD53LICENSElicense.txttext/plain1291http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6024/4/license.txtdfb14e53a8c6b76b85e77d7a5a3b3809MD541/60242020-11-09 17:10:30.373oai:repositorio.utfpr.edu.br:1/6024IE5hIHF1YWxpZGFkZSBkZSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvciBkYSBwdWJsaWNhw6fDo28sIGF1dG9yaXpvIGEgVVRGUFIgYSB2ZWljdWxhciwgCmF0cmF2w6lzIGRvIFBvcnRhbCBkZSBJbmZvcm1hw6fDo28gZW0gQWNlc3NvIEFiZXJ0byAoUElBQSkgZSBkb3MgQ2F0w6Fsb2dvcyBkYXMgQmlibGlvdGVjYXMgCmRlc3RhIEluc3RpdHVpw6fDo28sIHNlbSByZXNzYXJjaW1lbnRvIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgZGUgYWNvcmRvIGNvbSBhIExlaSBubyA5LjYxMC85OCwgCm8gdGV4dG8gZGVzdGEgb2JyYSwgb2JzZXJ2YW5kbyBhcyBjb25kacOnw7VlcyBkZSBkaXNwb25pYmlsaXphw6fDo28gcmVnaXN0cmFkYXMgbm8gaXRlbSA0IGRvIArigJxUZXJtbyBkZSBBdXRvcml6YcOnw6NvIHBhcmEgUHVibGljYcOnw6NvIGRlIFRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgCkVzcGVjaWFsaXphw6fDo28sIERpc3NlcnRhw6fDtWVzIGUgVGVzZXMgbm8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyAKU2lzdGVtYSBkZSBCaWJsaW90ZWNhcyBkYSBVVEZQUuKAnSwgcGFyYSBmaW5zIGRlIGxlaXR1cmEsIGltcHJlc3PDo28gZS9vdSBkb3dubG9hZCwgdmlzYW5kbyBhIApkaXZ1bGdhw6fDo28gZGEgcHJvZHXDp8OjbyBjaWVudMOtZmljYSBicmFzaWxlaXJhLgoKICBBcyB2aWFzIG9yaWdpbmFpcyBlIGFzc2luYWRhcyBwZWxvKHMpIGF1dG9yKGVzKSBkbyDigJxUZXJtbyBkZSBBdXRvcml6YcOnw6NvIHBhcmEgUHVibGljYcOnw6NvIGRlIApUcmFiYWxob3MgZGUgQ29uY2x1c8OjbyBkZSBDdXJzbyBkZSBHcmFkdWHDp8OjbyBlIEVzcGVjaWFsaXphw6fDo28sIERpc3NlcnRhw6fDtWVzIGUgVGVzZXMgbm8gUG9ydGFsIApkZSBJbmZvcm1hw6fDo28gZSBub3MgQ2F0w6Fsb2dvcyBFbGV0csO0bmljb3MgZG8gU2lzdGVtYSBkZSBCaWJsaW90ZWNhcyBkYSBVVEZQUuKAnSBlIGRhIOKAnERlY2xhcmHDp8OjbyAKZGUgQXV0b3JpYeKAnSBlbmNvbnRyYW0tc2UgYXJxdWl2YWRhcyBuYSBCaWJsaW90ZWNhIGRvIEPDom1wdXMgbm8gcXVhbCBvIHRyYWJhbGhvIGZvaSBkZWZlbmRpZG8uIApObyBjYXNvIGRlIHB1YmxpY2HDp8O1ZXMgZGUgYXV0b3JpYSBjb2xldGl2YSBlIG11bHRpY8OibXB1cywgb3MgZG9jdW1lbnRvcyBmaWNhcsOjbyBzb2IgZ3VhcmRhIGRhIApCaWJsaW90ZWNhIGNvbSBhIHF1YWwgbyDigJxwcmltZWlybyBhdXRvcuKAnSBwb3NzdWEgdsOtbmN1bG8uCg==Repositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2020-11-09T19:10:30Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
dc.title.pt_BR.fl_str_mv |
Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação |
title |
Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação |
spellingShingle |
Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação Paula, Samuel de CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Falhas de sistemas de computação Aprendizado do computador Software - Validação Computer system failures Machine learning Computer software - Validation |
title_short |
Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação |
title_full |
Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação |
title_fullStr |
Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação |
title_full_unstemmed |
Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação |
title_sort |
Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação |
author |
Paula, Samuel de |
author_facet |
Paula, Samuel de |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Ré, Reginaldo |
dc.contributor.referee1.fl_str_mv |
Ré, Reginaldo |
dc.contributor.referee2.fl_str_mv |
Gonçalves, Diego Bertolini |
dc.contributor.referee3.fl_str_mv |
Wiese, Igor Scaliante |
dc.contributor.author.fl_str_mv |
Paula, Samuel de |
contributor_str_mv |
Ré, Reginaldo Ré, Reginaldo Gonçalves, Diego Bertolini Wiese, Igor Scaliante |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
topic |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Falhas de sistemas de computação Aprendizado do computador Software - Validação Computer system failures Machine learning Computer software - Validation |
dc.subject.por.fl_str_mv |
Falhas de sistemas de computação Aprendizado do computador Software - Validação Computer system failures Machine learning Computer software - Validation |
description |
Predizer defeitos em software é uma tarefa difícil, principalmente quando o projeto alvo está em fase inicial de desenvolvimento, pois nessa fase o projeto não possui uma base de dados histórica consolidada que possa ser utilizada para treinar um modelo de predição. Neste caso, é preciso encontrar projetos semelhantes ao projeto alvo para que, a partir de seus dados históricos, modelos de predição possam ser elaborados, essa técnica recebe o nome de predição cruzada de defeitos. Esse trabalho tem como objetivo analisar uma forma alternativa para o agrupamento de projetos. A proposta consiste em agrupar modelos de predição de forma que possam compartilhar seus conjuntos de dados de treinamento. Os agrupamentos foram criados pelo algoritmo de clusterização BSAS (do inglês, Basic Sequential Algorithmic Scheme), utilizando uma medida de correlação denominada MCC (do inglês, Matthews correlation coefficient) para cálculo de semelhança dos modelos. Uma vez agrupados, os dados de treinamento dos modelos podem formar um único conjunto de treinamento, dando origem a modelos de predição cruzada de defeitos. Os resultados obtidos através da análise dos valores de MCC obtidos pelos modelos de predição indicam que os modelos criados possuem baixo desempenho preditivo enquanto que os indicadores utilizados em trabalhos semelhantes indicam modelos com bom desempenho. Portanto, conclui-se que, a medida de correlação MCC é uma medida de desempenho mais robusta que as demais para análise de modelos de predição e que ela contribui para a redução do problema de desbalanceamento de classes. |
publishDate |
2016 |
dc.date.issued.fl_str_mv |
2016-06-23 |
dc.date.accessioned.fl_str_mv |
2020-11-09T19:10:30Z |
dc.date.available.fl_str_mv |
2020-11-09T19:10:30Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
PAULA, Samuel de. Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação. 2016. 47 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2016. |
dc.identifier.uri.fl_str_mv |
http://repositorio.utfpr.edu.br/jspui/handle/1/6024 |
identifier_str_mv |
PAULA, Samuel de. Um estudo exploratório sobre a criação de modelos de predição cruzada de defeitos apoiada por uma medida de correlação. 2016. 47 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2016. |
url |
http://repositorio.utfpr.edu.br/jspui/handle/1/6024 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Campo Mourao |
dc.publisher.program.fl_str_mv |
Ciência da Computação |
dc.publisher.initials.fl_str_mv |
UTFPR |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Departamento Acadêmico de Computação |
publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Campo Mourao |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
instacron_str |
UTFPR |
institution |
UTFPR |
reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
bitstream.url.fl_str_mv |
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6024/1/CM_COCIC_2016_1_03.pdf.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6024/2/CM_COCIC_2016_1_03.pdf.jpg http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6024/3/CM_COCIC_2016_1_03.pdf http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6024/4/license.txt |
bitstream.checksum.fl_str_mv |
6020813eac13e80d078b7784db39f8dd c053a947c6b27fcc0c95edb8dc912be7 824a701933bb5bf841d6b44f52bc208b dfb14e53a8c6b76b85e77d7a5a3b3809 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
repository.mail.fl_str_mv |
|
_version_ |
1805923248114761728 |