Geração dinâmica de protótipos para classificação em bases de dados com múltiplas classes desbalanceadas

Detalhes bibliográficos
Autor(a) principal: SILVA, Evandro José da Rocha e
Data de Publicação: 2019
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFPE
Texto Completo: https://repositorio.ufpe.br/handle/123456789/38596
Resumo: Algoritmos de Aprendizado de Máquina comumente assumem que no conjunto de treinamento do modelo a quantidade de observações de cada classe é igual ou bastante similar. Entretanto, muitas bases de dados possuem classes com quantidades significativamente diferentes de instâncias. Foi observado na literatura que tais diferenças provocam uma queda no desempenho dos classificadores, a qual é associada ao enviesamento causado pela influência das classes que possuem mais instâncias. O efeito negativo no desempenho de classificadores é associado também à sobreposição de bordas, pequenos disjuntos, classes raras ou extremamente raras, e data set shift. Existem vários estudos considerando o desbalanceamento em bases de dados com duas classes, porém, estudos com múltiplas classes são menos frequentes, normalmente associados a sua maior complexidade. As soluções existentes normalmente englobam a decomposição do problema em combinações de versões binárias ou propostas ad hoc, ou seja, soluções específicas para o problema. Esta tese apresenta um estudo sobre a utilização de Geração de Protótipos no problema de múltiplas classes desbalanceadas. Duas abordagens foram propostas para tratar o problema, VDBC (Voronoi Diagram Based Classifier) e DCIA (Dynamic Centroid Insertion and Adjustment). A primeira consiste na geração de protótipos a partir da análise da vizinhança de cada instância na base de dados. A segunda aborda a geração mínima de protótipos, os quais podem ter seu posicionamento ajustado para refletir melhor as regiões de representação das classes. A partir das abordagens propostas, foram investigadas variações dos modelos, as quais foram comparadas entre si. Foi possível observar que o DCIA se destaca em relação ao VDBC. As suas melhores variações, cujos desempenhos são estatisticamente equivalentes, foram comparadas com várias soluções encontradas na literatura. Os resultados obtidos demostram a eficácia do DCIA ao ser competitivo e obter o melhor desempenho em várias das bases de dados utilizadas na validação das abordagens, principalmente nas bases que são consideradas mais desbalanceadas.
id UFPE_140e2e9d1cd0696072a5fb8e3a1c87a5
oai_identifier_str oai:repositorio.ufpe.br:123456789/38596
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str 2221
spelling SILVA, Evandro José da Rocha ehttp://lattes.cnpq.br/2704626940443054http://lattes.cnpq.br/1244195230407619ZANCHETTIN, Cleber2020-11-10T19:11:13Z2020-11-10T19:11:13Z2019-09-06SILVA, Evandro José da Rocha e. Geração dinâmica de protótipos para classificação em bases de dados com múltiplas classes desbalanceadas. 2019. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2019.https://repositorio.ufpe.br/handle/123456789/38596Algoritmos de Aprendizado de Máquina comumente assumem que no conjunto de treinamento do modelo a quantidade de observações de cada classe é igual ou bastante similar. Entretanto, muitas bases de dados possuem classes com quantidades significativamente diferentes de instâncias. Foi observado na literatura que tais diferenças provocam uma queda no desempenho dos classificadores, a qual é associada ao enviesamento causado pela influência das classes que possuem mais instâncias. O efeito negativo no desempenho de classificadores é associado também à sobreposição de bordas, pequenos disjuntos, classes raras ou extremamente raras, e data set shift. Existem vários estudos considerando o desbalanceamento em bases de dados com duas classes, porém, estudos com múltiplas classes são menos frequentes, normalmente associados a sua maior complexidade. As soluções existentes normalmente englobam a decomposição do problema em combinações de versões binárias ou propostas ad hoc, ou seja, soluções específicas para o problema. Esta tese apresenta um estudo sobre a utilização de Geração de Protótipos no problema de múltiplas classes desbalanceadas. Duas abordagens foram propostas para tratar o problema, VDBC (Voronoi Diagram Based Classifier) e DCIA (Dynamic Centroid Insertion and Adjustment). A primeira consiste na geração de protótipos a partir da análise da vizinhança de cada instância na base de dados. A segunda aborda a geração mínima de protótipos, os quais podem ter seu posicionamento ajustado para refletir melhor as regiões de representação das classes. A partir das abordagens propostas, foram investigadas variações dos modelos, as quais foram comparadas entre si. Foi possível observar que o DCIA se destaca em relação ao VDBC. As suas melhores variações, cujos desempenhos são estatisticamente equivalentes, foram comparadas com várias soluções encontradas na literatura. Os resultados obtidos demostram a eficácia do DCIA ao ser competitivo e obter o melhor desempenho em várias das bases de dados utilizadas na validação das abordagens, principalmente nas bases que são consideradas mais desbalanceadas.FACEPEMachine Learning algorithms usually assume that in the model’s training data, the amount of observations for each class is equal or quite similar. However, several data sets have classes with significantly different number of instances. In the literature, it was observed that such differences induce classifiers to lose performance, which is associated with the bias caused by the influence of classes that have more instances. The negative effect on classifiers performance is also associated with border overlapping, small disjuncts, rare or extremely rare classes, and data set shift. There are several studies considering imbalance in data sets with two classes. However, studies with multiple classes are less frequent, usually associated with greater complexity. Existing solutions typically involve a problem decomposition into combinations of binary versions or ad hoc proposals, i.e., specific solutions for the problem. This thesis presents a study on the use of Prototype Generation with the problem of multiple imbalanced classes. Two approaches were proposed to deal with the problem, Voronoi Diagram Based Classifier (VDBC) and Dynamic Centroid Insertion and Adjustment (DCIA). The first one consists in the generation of prototypes from the neighborhood analysis of each instance in the data set. The second approach deals with a minimal prototype generation, which can have their positioning adjusted to better reflect the representation regions of classes. From the proposed approaches, variations of the models were investigated, which were compared with each other. It was possible to observe that DCIA stands out in relation to VDBC. DCIA’s best variations, whose performances are statistically equivalent, were compared with various solutions found in the literature. The obtained results demonstrate the effectiveness of DCIA by achieving the best performance on several of the used data sets, mainly in the data sets that are considered more imbalanced.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência ComputacionalAprendizado de MáquinaBases DesbalanceadasPré-processamento de DadosGeração dinâmica de protótipos para classificação em bases de dados com múltiplas classes desbalanceadasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisdoutoradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPECC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/38596/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82310https://repositorio.ufpe.br/bitstream/123456789/38596/3/license.txtbd573a5ca8288eb7272482765f819534MD53TEXTTESE Evandro José da Rocha e Silva.pdf.txtTESE Evandro José da Rocha e Silva.pdf.txtExtracted texttext/plain422474https://repositorio.ufpe.br/bitstream/123456789/38596/4/TESE%20Evandro%20Jos%c3%a9%20da%20Rocha%20e%20Silva.pdf.txt6be925c7ed1fdbe3afc5731fa85962b4MD54THUMBNAILTESE Evandro José da Rocha e Silva.pdf.jpgTESE Evandro José da Rocha e Silva.pdf.jpgGenerated Thumbnailimage/jpeg1254https://repositorio.ufpe.br/bitstream/123456789/38596/5/TESE%20Evandro%20Jos%c3%a9%20da%20Rocha%20e%20Silva.pdf.jpge81e53d3907c38db6c9d1054500be8e2MD55ORIGINALTESE Evandro José da Rocha e Silva.pdfTESE Evandro José da Rocha e Silva.pdfapplication/pdf4778331https://repositorio.ufpe.br/bitstream/123456789/38596/1/TESE%20Evandro%20Jos%c3%a9%20da%20Rocha%20e%20Silva.pdfc11935d4468d0dc19a2ab4f91c1c612fMD51123456789/385962020-11-11 02:16:44.8oai:repositorio.ufpe.br:123456789/38596TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLCBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91IGFjb3Jkby4KCkEgVUZQRSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBub21lKHMpIGRvKHMpIGF1dG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50byBlbnRyZWd1ZSBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZG8gcHJldmlzdG8gbmEgYWzDrW5lYSBjKS4KRepositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212020-11-11T05:16:44Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Geração dinâmica de protótipos para classificação em bases de dados com múltiplas classes desbalanceadas
title Geração dinâmica de protótipos para classificação em bases de dados com múltiplas classes desbalanceadas
spellingShingle Geração dinâmica de protótipos para classificação em bases de dados com múltiplas classes desbalanceadas
SILVA, Evandro José da Rocha e
Inteligência Computacional
Aprendizado de Máquina
Bases Desbalanceadas
Pré-processamento de Dados
title_short Geração dinâmica de protótipos para classificação em bases de dados com múltiplas classes desbalanceadas
title_full Geração dinâmica de protótipos para classificação em bases de dados com múltiplas classes desbalanceadas
title_fullStr Geração dinâmica de protótipos para classificação em bases de dados com múltiplas classes desbalanceadas
title_full_unstemmed Geração dinâmica de protótipos para classificação em bases de dados com múltiplas classes desbalanceadas
title_sort Geração dinâmica de protótipos para classificação em bases de dados com múltiplas classes desbalanceadas
author SILVA, Evandro José da Rocha e
author_facet SILVA, Evandro José da Rocha e
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/2704626940443054
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/1244195230407619
dc.contributor.author.fl_str_mv SILVA, Evandro José da Rocha e
dc.contributor.advisor1.fl_str_mv ZANCHETTIN, Cleber
contributor_str_mv ZANCHETTIN, Cleber
dc.subject.por.fl_str_mv Inteligência Computacional
Aprendizado de Máquina
Bases Desbalanceadas
Pré-processamento de Dados
topic Inteligência Computacional
Aprendizado de Máquina
Bases Desbalanceadas
Pré-processamento de Dados
description Algoritmos de Aprendizado de Máquina comumente assumem que no conjunto de treinamento do modelo a quantidade de observações de cada classe é igual ou bastante similar. Entretanto, muitas bases de dados possuem classes com quantidades significativamente diferentes de instâncias. Foi observado na literatura que tais diferenças provocam uma queda no desempenho dos classificadores, a qual é associada ao enviesamento causado pela influência das classes que possuem mais instâncias. O efeito negativo no desempenho de classificadores é associado também à sobreposição de bordas, pequenos disjuntos, classes raras ou extremamente raras, e data set shift. Existem vários estudos considerando o desbalanceamento em bases de dados com duas classes, porém, estudos com múltiplas classes são menos frequentes, normalmente associados a sua maior complexidade. As soluções existentes normalmente englobam a decomposição do problema em combinações de versões binárias ou propostas ad hoc, ou seja, soluções específicas para o problema. Esta tese apresenta um estudo sobre a utilização de Geração de Protótipos no problema de múltiplas classes desbalanceadas. Duas abordagens foram propostas para tratar o problema, VDBC (Voronoi Diagram Based Classifier) e DCIA (Dynamic Centroid Insertion and Adjustment). A primeira consiste na geração de protótipos a partir da análise da vizinhança de cada instância na base de dados. A segunda aborda a geração mínima de protótipos, os quais podem ter seu posicionamento ajustado para refletir melhor as regiões de representação das classes. A partir das abordagens propostas, foram investigadas variações dos modelos, as quais foram comparadas entre si. Foi possível observar que o DCIA se destaca em relação ao VDBC. As suas melhores variações, cujos desempenhos são estatisticamente equivalentes, foram comparadas com várias soluções encontradas na literatura. Os resultados obtidos demostram a eficácia do DCIA ao ser competitivo e obter o melhor desempenho em várias das bases de dados utilizadas na validação das abordagens, principalmente nas bases que são consideradas mais desbalanceadas.
publishDate 2019
dc.date.issued.fl_str_mv 2019-09-06
dc.date.accessioned.fl_str_mv 2020-11-10T19:11:13Z
dc.date.available.fl_str_mv 2020-11-10T19:11:13Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SILVA, Evandro José da Rocha e. Geração dinâmica de protótipos para classificação em bases de dados com múltiplas classes desbalanceadas. 2019. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2019.
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/38596
identifier_str_mv SILVA, Evandro José da Rocha e. Geração dinâmica de protótipos para classificação em bases de dados com múltiplas classes desbalanceadas. 2019. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2019.
url https://repositorio.ufpe.br/handle/123456789/38596
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/38596/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/38596/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/38596/4/TESE%20Evandro%20Jos%c3%a9%20da%20Rocha%20e%20Silva.pdf.txt
https://repositorio.ufpe.br/bitstream/123456789/38596/5/TESE%20Evandro%20Jos%c3%a9%20da%20Rocha%20e%20Silva.pdf.jpg
https://repositorio.ufpe.br/bitstream/123456789/38596/1/TESE%20Evandro%20Jos%c3%a9%20da%20Rocha%20e%20Silva.pdf
bitstream.checksum.fl_str_mv e39d27027a6cc9cb039ad269a5db8e34
bd573a5ca8288eb7272482765f819534
6be925c7ed1fdbe3afc5731fa85962b4
e81e53d3907c38db6c9d1054500be8e2
c11935d4468d0dc19a2ab4f91c1c612f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1802310715990605824