Um método para seleção de atributos em bases de dados de classificação hierárquica multirrótulo

Detalhes bibliográficos
Autor(a) principal: Vieira, Raimundo Osvaldo
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/29933
Resumo: Problemas de classificação hierárquica multirrótulo normalmente precisam lidar com conjuntos de dados que possuem grande número de atributos e rótulos, o que pode interferir de forma negativa no desempenho do classificador. A aplicação de métodos de redução de dimensionalidade pode prover uma melhora significativa no desempenho dos classificadores. A seleção de atributos é um dos métodos de redução de dimensionalidade em bases de dados e compreende a escolha dos atributos mais relevantes a partir dos originais. Três abordagens principais para a seleção de atributos podem ser utilizadas: filtro, wrapper e embutida. De modo particular, a abordagem filtro faz a seleção baseado apenas nas características dos próprios dados e de maneira independente do algoritmo de treinamento. No contexto da classificação hierárquica multirrótulo, alguns métodos de seleção de atributos têm sido propostos. Estes métodos fazem uso de técnicas consolidadas em contextos de classificação plana e classificação monorrótulo, apresentando bons resultados. Neste sentido, este trabalho verificou a aplicabilidade da medida Fisher Score para a seleção de atributos em cenários de classificação hierárquica multirrótulo e propôs um método para esta tarefa utilizando a abordagem filtro. O método FSF-HMC consiste em avaliar os atributos a partir do cálculo individual do Fisher Score. Este cálculo foi adaptado para considerar a hierarquia de classes. Os atributos avaliados com pontuação acima do valor médio de Fisher Score apurado para todos os atributos são selecionados para compor o conjunto de dados reduzido que será utilizado para avaliação do classificador. Para validação do método proposto foram realizados experimentos com 10 bases de dados da Gene Ontology. Tais experimentos consistiram em avaliar o desempenho de dois classificadores hierárquicos multirrótulo, Clus-HMC e MHC-CNN, em termos da medida AUPRC, sendo realizada uma comparação dos resultados produzidos a partir dos conjuntos de dados originais e dos conjuntos de dados reduzidos. Os resultados dos experimentos demonstram que houve um ganho em termos do percentual de redução do número de atributos sobre os dados originais e que o desempenho dos classificadores foi estatisticamente equivalente para os conjuntos de dados originais e reduzidos.
id UTFPR-12_17f334583d05e8ac677c223ba137a9a9
oai_identifier_str oai:repositorio.utfpr.edu.br:1/29933
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling 2022-10-17T13:57:34Z2022-10-17T13:57:34Z2022-07-07VIEIRA, Raimundo Osvaldo. Um método para seleção de atributos em bases de dados de classificação hierárquica multirrótulo. 2022. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2022.http://repositorio.utfpr.edu.br/jspui/handle/1/29933Problemas de classificação hierárquica multirrótulo normalmente precisam lidar com conjuntos de dados que possuem grande número de atributos e rótulos, o que pode interferir de forma negativa no desempenho do classificador. A aplicação de métodos de redução de dimensionalidade pode prover uma melhora significativa no desempenho dos classificadores. A seleção de atributos é um dos métodos de redução de dimensionalidade em bases de dados e compreende a escolha dos atributos mais relevantes a partir dos originais. Três abordagens principais para a seleção de atributos podem ser utilizadas: filtro, wrapper e embutida. De modo particular, a abordagem filtro faz a seleção baseado apenas nas características dos próprios dados e de maneira independente do algoritmo de treinamento. No contexto da classificação hierárquica multirrótulo, alguns métodos de seleção de atributos têm sido propostos. Estes métodos fazem uso de técnicas consolidadas em contextos de classificação plana e classificação monorrótulo, apresentando bons resultados. Neste sentido, este trabalho verificou a aplicabilidade da medida Fisher Score para a seleção de atributos em cenários de classificação hierárquica multirrótulo e propôs um método para esta tarefa utilizando a abordagem filtro. O método FSF-HMC consiste em avaliar os atributos a partir do cálculo individual do Fisher Score. Este cálculo foi adaptado para considerar a hierarquia de classes. Os atributos avaliados com pontuação acima do valor médio de Fisher Score apurado para todos os atributos são selecionados para compor o conjunto de dados reduzido que será utilizado para avaliação do classificador. Para validação do método proposto foram realizados experimentos com 10 bases de dados da Gene Ontology. Tais experimentos consistiram em avaliar o desempenho de dois classificadores hierárquicos multirrótulo, Clus-HMC e MHC-CNN, em termos da medida AUPRC, sendo realizada uma comparação dos resultados produzidos a partir dos conjuntos de dados originais e dos conjuntos de dados reduzidos. Os resultados dos experimentos demonstram que houve um ganho em termos do percentual de redução do número de atributos sobre os dados originais e que o desempenho dos classificadores foi estatisticamente equivalente para os conjuntos de dados originais e reduzidos.Hierarchical multi-label classification problems usually need to deal with datasets that have a large number of attributes and labels, which can negatively interfere with the performance of the classifier. The application of dimensionality reduction methods can provide a significant improvement in the performance of classifiers. Feature selection is one of the dimensionality reduction methods in databases and comprises choosing the most relevant attributes from the originals. Three main approaches to feature selection can be used: filter, wrapper and embedded. In particular, the filter approach makes the selection based only on the characteristics of the data itself and independently of the training algorithm. In the context of hierarchical multi-label classification, some feature selection methods have been proposed. These methods make use of consolidated techniques in contexts of flat classification and single-label classification, showing good results. In this sense, this work investigated the applicability of the Fisher Score measure for the feature selection in hierarchical multi-label classification scenarios and proposed a method for this task using the filter approach. The FSF-HMC method consists of evaluating the attributes from the individual calculation of the Fisher Score. This calculation has been adapted to consider the class hierarchy. The attributes evaluated with a score above the average Fisher Score calculated for all attributes are selected to compose the reduced dataset that will be used to evaluate the classifier. To validate the proposed method, experiments were performed with 10 Gene Ontology databases. These experiments consisted of evaluating the performance of two multi-label hierarchical classifiers, Clus-HMC and MHC-CNN, in terms of the AUPRC measure, with a comparison of the results produced from the original datasets and the reduced datasets. The results of the experiments demonstrate that there was a gain in terms of the percentage of reduction in the number of attributes over the original data and that the performance of the classifiers was statistically equivalent for the original and reduced datasets.porUniversidade Tecnológica Federal do ParanáPonta GrossaPrograma de Pós-Graduação em Ciência da ComputaçãoUTFPRBrasilhttp://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOEngenharia/Tecnologia/GestãoClassificaçãoAnálise dimensionalBanco de dadosClassificationDimensional analysisData basesUm método para seleção de atributos em bases de dados de classificação hierárquica multirrótuloA method for feature selection on databases of hierarchical multilabel classificationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisPonta GrossaBorges, Helyane Bronoskihttps://orcid.org/0000-0002-9153-3819http://lattes.cnpq.br/8340106221427112Borges, Helyane Bronoskihttps://orcid.org/0000-0002-9153-3819http://lattes.cnpq.br/8340106221427112Souza, Bruno Feres dehttps://orcid.org/0000-0003-1997-4983http://lattes.cnpq.br/4112635495117258Matos, Simone Nasserhttps://orcid.org/0000-0002-5362-2343http://lattes.cnpq.br/2608583610949216https://orcid.org/0000-0002-7086-749Xhttp://lattes.cnpq.br/5421003617737608Vieira, Raimundo Osvaldoreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81031http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29933/2/license_rdf934f4ca17e109e0a05eaeaba504d7ce4MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29933/3/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD53ORIGINALselecaoatributoshierarquicamultirrotulo.pdfapplication/pdf2635746http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29933/1/selecaoatributoshierarquicamultirrotulo.pdf02a8c40e6c2a079d49d932ce6859d684MD51TEXTselecaoatributoshierarquicamultirrotulo.pdf.txtselecaoatributoshierarquicamultirrotulo.pdf.txtExtracted texttext/plain224154http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29933/4/selecaoatributoshierarquicamultirrotulo.pdf.txte5536e50c3e58adaa064bbd141d37f4bMD54THUMBNAILselecaoatributoshierarquicamultirrotulo.pdf.jpgselecaoatributoshierarquicamultirrotulo.pdf.jpgGenerated Thumbnailimage/jpeg1186http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29933/5/selecaoatributoshierarquicamultirrotulo.pdf.jpg36ae2e3f43a8db7dcab526ddc1dcabb9MD551/299332022-10-18 03:06:48.392oai:repositorio.utfpr.edu.br:1/29933TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2022-10-18T06:06:48Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv Um método para seleção de atributos em bases de dados de classificação hierárquica multirrótulo
dc.title.alternative.pt_BR.fl_str_mv A method for feature selection on databases of hierarchical multilabel classification
title Um método para seleção de atributos em bases de dados de classificação hierárquica multirrótulo
spellingShingle Um método para seleção de atributos em bases de dados de classificação hierárquica multirrótulo
Vieira, Raimundo Osvaldo
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Classificação
Análise dimensional
Banco de dados
Classification
Dimensional analysis
Data bases
Engenharia/Tecnologia/Gestão
title_short Um método para seleção de atributos em bases de dados de classificação hierárquica multirrótulo
title_full Um método para seleção de atributos em bases de dados de classificação hierárquica multirrótulo
title_fullStr Um método para seleção de atributos em bases de dados de classificação hierárquica multirrótulo
title_full_unstemmed Um método para seleção de atributos em bases de dados de classificação hierárquica multirrótulo
title_sort Um método para seleção de atributos em bases de dados de classificação hierárquica multirrótulo
author Vieira, Raimundo Osvaldo
author_facet Vieira, Raimundo Osvaldo
author_role author
dc.contributor.advisor1.fl_str_mv Borges, Helyane Bronoski
dc.contributor.advisor1ID.fl_str_mv https://orcid.org/0000-0002-9153-3819
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/8340106221427112
dc.contributor.referee1.fl_str_mv Borges, Helyane Bronoski
dc.contributor.referee1ID.fl_str_mv https://orcid.org/0000-0002-9153-3819
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/8340106221427112
dc.contributor.referee2.fl_str_mv Souza, Bruno Feres de
dc.contributor.referee2ID.fl_str_mv https://orcid.org/0000-0003-1997-4983
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/4112635495117258
dc.contributor.referee3.fl_str_mv Matos, Simone Nasser
dc.contributor.referee3ID.fl_str_mv https://orcid.org/0000-0002-5362-2343
dc.contributor.referee3Lattes.fl_str_mv http://lattes.cnpq.br/2608583610949216
dc.contributor.authorID.fl_str_mv https://orcid.org/0000-0002-7086-749X
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/5421003617737608
dc.contributor.author.fl_str_mv Vieira, Raimundo Osvaldo
contributor_str_mv Borges, Helyane Bronoski
Borges, Helyane Bronoski
Souza, Bruno Feres de
Matos, Simone Nasser
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Classificação
Análise dimensional
Banco de dados
Classification
Dimensional analysis
Data bases
Engenharia/Tecnologia/Gestão
dc.subject.por.fl_str_mv Classificação
Análise dimensional
Banco de dados
Classification
Dimensional analysis
Data bases
dc.subject.capes.pt_BR.fl_str_mv Engenharia/Tecnologia/Gestão
description Problemas de classificação hierárquica multirrótulo normalmente precisam lidar com conjuntos de dados que possuem grande número de atributos e rótulos, o que pode interferir de forma negativa no desempenho do classificador. A aplicação de métodos de redução de dimensionalidade pode prover uma melhora significativa no desempenho dos classificadores. A seleção de atributos é um dos métodos de redução de dimensionalidade em bases de dados e compreende a escolha dos atributos mais relevantes a partir dos originais. Três abordagens principais para a seleção de atributos podem ser utilizadas: filtro, wrapper e embutida. De modo particular, a abordagem filtro faz a seleção baseado apenas nas características dos próprios dados e de maneira independente do algoritmo de treinamento. No contexto da classificação hierárquica multirrótulo, alguns métodos de seleção de atributos têm sido propostos. Estes métodos fazem uso de técnicas consolidadas em contextos de classificação plana e classificação monorrótulo, apresentando bons resultados. Neste sentido, este trabalho verificou a aplicabilidade da medida Fisher Score para a seleção de atributos em cenários de classificação hierárquica multirrótulo e propôs um método para esta tarefa utilizando a abordagem filtro. O método FSF-HMC consiste em avaliar os atributos a partir do cálculo individual do Fisher Score. Este cálculo foi adaptado para considerar a hierarquia de classes. Os atributos avaliados com pontuação acima do valor médio de Fisher Score apurado para todos os atributos são selecionados para compor o conjunto de dados reduzido que será utilizado para avaliação do classificador. Para validação do método proposto foram realizados experimentos com 10 bases de dados da Gene Ontology. Tais experimentos consistiram em avaliar o desempenho de dois classificadores hierárquicos multirrótulo, Clus-HMC e MHC-CNN, em termos da medida AUPRC, sendo realizada uma comparação dos resultados produzidos a partir dos conjuntos de dados originais e dos conjuntos de dados reduzidos. Os resultados dos experimentos demonstram que houve um ganho em termos do percentual de redução do número de atributos sobre os dados originais e que o desempenho dos classificadores foi estatisticamente equivalente para os conjuntos de dados originais e reduzidos.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-10-17T13:57:34Z
dc.date.available.fl_str_mv 2022-10-17T13:57:34Z
dc.date.issued.fl_str_mv 2022-07-07
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv VIEIRA, Raimundo Osvaldo. Um método para seleção de atributos em bases de dados de classificação hierárquica multirrótulo. 2022. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2022.
dc.identifier.uri.fl_str_mv http://repositorio.utfpr.edu.br/jspui/handle/1/29933
identifier_str_mv VIEIRA, Raimundo Osvaldo. Um método para seleção de atributos em bases de dados de classificação hierárquica multirrótulo. 2022. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2022.
url http://repositorio.utfpr.edu.br/jspui/handle/1/29933
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Ponta Grossa
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv UTFPR
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Ponta Grossa
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29933/2/license_rdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29933/3/license.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29933/1/selecaoatributoshierarquicamultirrotulo.pdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29933/4/selecaoatributoshierarquicamultirrotulo.pdf.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29933/5/selecaoatributoshierarquicamultirrotulo.pdf.jpg
bitstream.checksum.fl_str_mv 934f4ca17e109e0a05eaeaba504d7ce4
b9d82215ab23456fa2d8b49c5df1b95b
02a8c40e6c2a079d49d932ce6859d684
e5536e50c3e58adaa064bbd141d37f4b
36ae2e3f43a8db7dcab526ddc1dcabb9
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_ 1797044072912781312