Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo

Detalhes bibliográficos
Autor(a) principal: Silva, Luan Vinicius Moraes da
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/18137
Resumo: Classification is the task of assigning data instances to classes. In Hierarchical Multi- label Classification, instances may belong to two or more classes (labels) simultaneously, where the classes are hierarchically structured. Feature Selection is part of the data pre- processing step and plays an important role in classification tasks for Machine Learning, as it can effectively reduce the size of the dataset, removing irrelevant/redundant attributes and improving prediction performance of the classifier. Although many real-world prob- lems are from multi-label hierarchical domain, most related research addresses the feature selection task focusing on single-label problems. In many works, even when the proposal addresses multiple labels, the associated class structure is not hierarchical. Therefore, in this work, we study how feature selection can be used in the context of Hierarchical Multi- Label Classification. For this purpose, we compare global feature selectors known in the literature with flat feature selectors adapted for hierarchical structures. The global fea- ture selectors used were Relief, Genie3 and Symbolic, and the flat feature selectors were ReliefF and Information Gain. For flat selectors, strategies were adopted to transform the Hierarchical Multi-label problem into a non-hierarchical multi-label problem, using the Label Powerset and Binary Relevance transformations. As main results, the global evaluators produced subsets of relevant features, improving the predictive performance while reducing the original dataset by up to 75% of the original dimensionality, with emphasis on the evaluators based on the Genie3 and Symbolic set. Despite the improvement, the flat evaluators were proportionally better compared to the global evaluators.
id SCAR_7374832ddb1b8dde3cdf3e08fa39cd5b
oai_identifier_str oai:repositorio.ufscar.br:ufscar/18137
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Silva, Luan Vinicius Moraes daCerri, Ricardohttp://lattes.cnpq.br/6266519868438512http://lattes.cnpq.br/2590190539349649https://orcid.org/0000-0002-2582-16959e8fff97-21a0-48f8-be48-3949af3e9cad2023-06-13T12:11:40Z2023-06-13T12:11:40Z2023-04-06SILVA, Luan Vinicius Moraes da. Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo. 2023. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18137.https://repositorio.ufscar.br/handle/ufscar/18137Classification is the task of assigning data instances to classes. In Hierarchical Multi- label Classification, instances may belong to two or more classes (labels) simultaneously, where the classes are hierarchically structured. Feature Selection is part of the data pre- processing step and plays an important role in classification tasks for Machine Learning, as it can effectively reduce the size of the dataset, removing irrelevant/redundant attributes and improving prediction performance of the classifier. Although many real-world prob- lems are from multi-label hierarchical domain, most related research addresses the feature selection task focusing on single-label problems. In many works, even when the proposal addresses multiple labels, the associated class structure is not hierarchical. Therefore, in this work, we study how feature selection can be used in the context of Hierarchical Multi- Label Classification. For this purpose, we compare global feature selectors known in the literature with flat feature selectors adapted for hierarchical structures. The global fea- ture selectors used were Relief, Genie3 and Symbolic, and the flat feature selectors were ReliefF and Information Gain. For flat selectors, strategies were adopted to transform the Hierarchical Multi-label problem into a non-hierarchical multi-label problem, using the Label Powerset and Binary Relevance transformations. As main results, the global evaluators produced subsets of relevant features, improving the predictive performance while reducing the original dataset by up to 75% of the original dimensionality, with emphasis on the evaluators based on the Genie3 and Symbolic set. Despite the improvement, the flat evaluators were proportionally better compared to the global evaluators.Classificação é a tarefa de atribuir exemplos de dados a classes. Na Classificação Hierár- quica Multirrótulo, os exemplos podem pertencer a duas ou mais classes (rótulos) simulta- neamente, onde as classes são estruturadas de forma hierárquica. A Seleção de Atributos faz parte da etapa de pré-processamento de dados e desempenha papel fundamental em tarefas de classificação para Aprendizado de Máquina, uma vez que pode reduzir de forma eficaz a dimensão do conjunto de dados, removendo atributos irrelevantes/redundantes, melhorando o desempenho preditivo do classificador. Embora muitos problemas do mundo real sejam do domínio hierárquico multirrótulo, a maioria das pesquisas relacionadas abor- dam a tarefa de seleção de atributos com foco em problemas monorrótulo, ou seja, de rótulo único. Em muitos trabalhos, mesmo quando a proposta aborda múltiplos rótulos, a estrutura de classes associada não é hierárquica. Portanto, neste trabalho, estudamos como a seleção de atributos pode ser empregada no contexto da Classificação Hierár- quica Multirrótulo. Com esse propósito, comparamos como seletores de atributos globais conhecidos na literatura com seletores de atributos planos adaptados para estruturas hi- erárquicas. Os seletores de atributos globais utilizados foram Relief, Genie3 e Symbolic, e os seletores de atributos planos foram ReliefF e Information Gain. Para os seletores planos, foram adotadas estratégias para transformar o problema Hierárquico Multirró- tulo em um problema multirrótulo não hierárquico, utilizando as transformações Label Powerset e Binary Relevance. Como principais resultados, os avaliadores produziram sub- conjuntos de atributos relevantes, aprimorando o desempenho preditivo dos classificadores enquanto reduziam a dimensionalidade do conjunto de dados original em até 75%, com destaque para os avaliadores baseados em Genie3 e Symbolic. Apesar do aprimoramento, os avaliadores planos se mostraram melhores, proporcionalmente, se comparados com os avaliadores globais.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosEngenharia de Computação - ECUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessSeleção de atributosClassificação hierárquica multirrótuloAprendizado de máquinaCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOInvestigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótuloInvestigating feature selection methods for hierarchical multi-label classification problemsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis600600c997f5ee-db84-40ed-8971-521dd105f2d1reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALTCC_Luan_Moraes.pdfTCC_Luan_Moraes.pdfapplication/pdf479387https://repositorio.ufscar.br/bitstream/ufscar/18137/1/TCC_Luan_Moraes.pdf94497067d5fbe440cee4e460c6e2e959MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstream/ufscar/18137/2/license_rdff337d95da1fce0a22c77480e5e9a7aecMD52TEXTTCC_Luan_Moraes.pdf.txtTCC_Luan_Moraes.pdf.txtExtracted texttext/plain60700https://repositorio.ufscar.br/bitstream/ufscar/18137/3/TCC_Luan_Moraes.pdf.txtf8dbe7d47084b0dcd53f2cec4d3dd9fbMD53THUMBNAILTCC_Luan_Moraes.pdf.jpgTCC_Luan_Moraes.pdf.jpgIM Thumbnailimage/jpeg5663https://repositorio.ufscar.br/bitstream/ufscar/18137/4/TCC_Luan_Moraes.pdf.jpg25bec1fd83b5a9a9cc34427e3eb1697fMD54ufscar/181372023-09-18 18:32:39.655oai:repositorio.ufscar.br:ufscar/18137Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:32:39Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo
dc.title.alternative.eng.fl_str_mv Investigating feature selection methods for hierarchical multi-label classification problems
title Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo
spellingShingle Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo
Silva, Luan Vinicius Moraes da
Seleção de atributos
Classificação hierárquica multirrótulo
Aprendizado de máquina
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
title_short Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo
title_full Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo
title_fullStr Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo
title_full_unstemmed Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo
title_sort Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo
author Silva, Luan Vinicius Moraes da
author_facet Silva, Luan Vinicius Moraes da
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/2590190539349649
dc.contributor.advisor1orcid.por.fl_str_mv https://orcid.org/0000-0002-2582-1695
dc.contributor.author.fl_str_mv Silva, Luan Vinicius Moraes da
dc.contributor.advisor1.fl_str_mv Cerri, Ricardo
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6266519868438512
dc.contributor.authorID.fl_str_mv 9e8fff97-21a0-48f8-be48-3949af3e9cad
contributor_str_mv Cerri, Ricardo
dc.subject.por.fl_str_mv Seleção de atributos
Classificação hierárquica multirrótulo
Aprendizado de máquina
topic Seleção de atributos
Classificação hierárquica multirrótulo
Aprendizado de máquina
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
description Classification is the task of assigning data instances to classes. In Hierarchical Multi- label Classification, instances may belong to two or more classes (labels) simultaneously, where the classes are hierarchically structured. Feature Selection is part of the data pre- processing step and plays an important role in classification tasks for Machine Learning, as it can effectively reduce the size of the dataset, removing irrelevant/redundant attributes and improving prediction performance of the classifier. Although many real-world prob- lems are from multi-label hierarchical domain, most related research addresses the feature selection task focusing on single-label problems. In many works, even when the proposal addresses multiple labels, the associated class structure is not hierarchical. Therefore, in this work, we study how feature selection can be used in the context of Hierarchical Multi- Label Classification. For this purpose, we compare global feature selectors known in the literature with flat feature selectors adapted for hierarchical structures. The global fea- ture selectors used were Relief, Genie3 and Symbolic, and the flat feature selectors were ReliefF and Information Gain. For flat selectors, strategies were adopted to transform the Hierarchical Multi-label problem into a non-hierarchical multi-label problem, using the Label Powerset and Binary Relevance transformations. As main results, the global evaluators produced subsets of relevant features, improving the predictive performance while reducing the original dataset by up to 75% of the original dimensionality, with emphasis on the evaluators based on the Genie3 and Symbolic set. Despite the improvement, the flat evaluators were proportionally better compared to the global evaluators.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-06-13T12:11:40Z
dc.date.available.fl_str_mv 2023-06-13T12:11:40Z
dc.date.issued.fl_str_mv 2023-04-06
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SILVA, Luan Vinicius Moraes da. Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo. 2023. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18137.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/18137
identifier_str_mv SILVA, Luan Vinicius Moraes da. Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo. 2023. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18137.
url https://repositorio.ufscar.br/handle/ufscar/18137
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
600
dc.relation.authority.fl_str_mv c997f5ee-db84-40ed-8971-521dd105f2d1
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
Engenharia de Computação - EC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
Engenharia de Computação - EC
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/18137/1/TCC_Luan_Moraes.pdf
https://repositorio.ufscar.br/bitstream/ufscar/18137/2/license_rdf
https://repositorio.ufscar.br/bitstream/ufscar/18137/3/TCC_Luan_Moraes.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/18137/4/TCC_Luan_Moraes.pdf.jpg
bitstream.checksum.fl_str_mv 94497067d5fbe440cee4e460c6e2e959
f337d95da1fce0a22c77480e5e9a7aec
f8dbe7d47084b0dcd53f2cec4d3dd9fb
25bec1fd83b5a9a9cc34427e3eb1697f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1802136423810203648