Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSCAR |
Texto Completo: | https://repositorio.ufscar.br/handle/ufscar/18137 |
Resumo: | Classification is the task of assigning data instances to classes. In Hierarchical Multi- label Classification, instances may belong to two or more classes (labels) simultaneously, where the classes are hierarchically structured. Feature Selection is part of the data pre- processing step and plays an important role in classification tasks for Machine Learning, as it can effectively reduce the size of the dataset, removing irrelevant/redundant attributes and improving prediction performance of the classifier. Although many real-world prob- lems are from multi-label hierarchical domain, most related research addresses the feature selection task focusing on single-label problems. In many works, even when the proposal addresses multiple labels, the associated class structure is not hierarchical. Therefore, in this work, we study how feature selection can be used in the context of Hierarchical Multi- Label Classification. For this purpose, we compare global feature selectors known in the literature with flat feature selectors adapted for hierarchical structures. The global fea- ture selectors used were Relief, Genie3 and Symbolic, and the flat feature selectors were ReliefF and Information Gain. For flat selectors, strategies were adopted to transform the Hierarchical Multi-label problem into a non-hierarchical multi-label problem, using the Label Powerset and Binary Relevance transformations. As main results, the global evaluators produced subsets of relevant features, improving the predictive performance while reducing the original dataset by up to 75% of the original dimensionality, with emphasis on the evaluators based on the Genie3 and Symbolic set. Despite the improvement, the flat evaluators were proportionally better compared to the global evaluators. |
id |
SCAR_7374832ddb1b8dde3cdf3e08fa39cd5b |
---|---|
oai_identifier_str |
oai:repositorio.ufscar.br:ufscar/18137 |
network_acronym_str |
SCAR |
network_name_str |
Repositório Institucional da UFSCAR |
repository_id_str |
4322 |
spelling |
Silva, Luan Vinicius Moraes daCerri, Ricardohttp://lattes.cnpq.br/6266519868438512http://lattes.cnpq.br/2590190539349649https://orcid.org/0000-0002-2582-16959e8fff97-21a0-48f8-be48-3949af3e9cad2023-06-13T12:11:40Z2023-06-13T12:11:40Z2023-04-06SILVA, Luan Vinicius Moraes da. Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo. 2023. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18137.https://repositorio.ufscar.br/handle/ufscar/18137Classification is the task of assigning data instances to classes. In Hierarchical Multi- label Classification, instances may belong to two or more classes (labels) simultaneously, where the classes are hierarchically structured. Feature Selection is part of the data pre- processing step and plays an important role in classification tasks for Machine Learning, as it can effectively reduce the size of the dataset, removing irrelevant/redundant attributes and improving prediction performance of the classifier. Although many real-world prob- lems are from multi-label hierarchical domain, most related research addresses the feature selection task focusing on single-label problems. In many works, even when the proposal addresses multiple labels, the associated class structure is not hierarchical. Therefore, in this work, we study how feature selection can be used in the context of Hierarchical Multi- Label Classification. For this purpose, we compare global feature selectors known in the literature with flat feature selectors adapted for hierarchical structures. The global fea- ture selectors used were Relief, Genie3 and Symbolic, and the flat feature selectors were ReliefF and Information Gain. For flat selectors, strategies were adopted to transform the Hierarchical Multi-label problem into a non-hierarchical multi-label problem, using the Label Powerset and Binary Relevance transformations. As main results, the global evaluators produced subsets of relevant features, improving the predictive performance while reducing the original dataset by up to 75% of the original dimensionality, with emphasis on the evaluators based on the Genie3 and Symbolic set. Despite the improvement, the flat evaluators were proportionally better compared to the global evaluators.Classificação é a tarefa de atribuir exemplos de dados a classes. Na Classificação Hierár- quica Multirrótulo, os exemplos podem pertencer a duas ou mais classes (rótulos) simulta- neamente, onde as classes são estruturadas de forma hierárquica. A Seleção de Atributos faz parte da etapa de pré-processamento de dados e desempenha papel fundamental em tarefas de classificação para Aprendizado de Máquina, uma vez que pode reduzir de forma eficaz a dimensão do conjunto de dados, removendo atributos irrelevantes/redundantes, melhorando o desempenho preditivo do classificador. Embora muitos problemas do mundo real sejam do domínio hierárquico multirrótulo, a maioria das pesquisas relacionadas abor- dam a tarefa de seleção de atributos com foco em problemas monorrótulo, ou seja, de rótulo único. Em muitos trabalhos, mesmo quando a proposta aborda múltiplos rótulos, a estrutura de classes associada não é hierárquica. Portanto, neste trabalho, estudamos como a seleção de atributos pode ser empregada no contexto da Classificação Hierár- quica Multirrótulo. Com esse propósito, comparamos como seletores de atributos globais conhecidos na literatura com seletores de atributos planos adaptados para estruturas hi- erárquicas. Os seletores de atributos globais utilizados foram Relief, Genie3 e Symbolic, e os seletores de atributos planos foram ReliefF e Information Gain. Para os seletores planos, foram adotadas estratégias para transformar o problema Hierárquico Multirró- tulo em um problema multirrótulo não hierárquico, utilizando as transformações Label Powerset e Binary Relevance. Como principais resultados, os avaliadores produziram sub- conjuntos de atributos relevantes, aprimorando o desempenho preditivo dos classificadores enquanto reduziam a dimensionalidade do conjunto de dados original em até 75%, com destaque para os avaliadores baseados em Genie3 e Symbolic. Apesar do aprimoramento, os avaliadores planos se mostraram melhores, proporcionalmente, se comparados com os avaliadores globais.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosEngenharia de Computação - ECUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessSeleção de atributosClassificação hierárquica multirrótuloAprendizado de máquinaCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOInvestigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótuloInvestigating feature selection methods for hierarchical multi-label classification problemsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis600600c997f5ee-db84-40ed-8971-521dd105f2d1reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALTCC_Luan_Moraes.pdfTCC_Luan_Moraes.pdfapplication/pdf479387https://repositorio.ufscar.br/bitstream/ufscar/18137/1/TCC_Luan_Moraes.pdf94497067d5fbe440cee4e460c6e2e959MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstream/ufscar/18137/2/license_rdff337d95da1fce0a22c77480e5e9a7aecMD52TEXTTCC_Luan_Moraes.pdf.txtTCC_Luan_Moraes.pdf.txtExtracted texttext/plain60700https://repositorio.ufscar.br/bitstream/ufscar/18137/3/TCC_Luan_Moraes.pdf.txtf8dbe7d47084b0dcd53f2cec4d3dd9fbMD53THUMBNAILTCC_Luan_Moraes.pdf.jpgTCC_Luan_Moraes.pdf.jpgIM Thumbnailimage/jpeg5663https://repositorio.ufscar.br/bitstream/ufscar/18137/4/TCC_Luan_Moraes.pdf.jpg25bec1fd83b5a9a9cc34427e3eb1697fMD54ufscar/181372023-09-18 18:32:39.655oai:repositorio.ufscar.br:ufscar/18137Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:32:39Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
dc.title.por.fl_str_mv |
Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo |
dc.title.alternative.eng.fl_str_mv |
Investigating feature selection methods for hierarchical multi-label classification problems |
title |
Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo |
spellingShingle |
Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo Silva, Luan Vinicius Moraes da Seleção de atributos Classificação hierárquica multirrótulo Aprendizado de máquina CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
title_short |
Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo |
title_full |
Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo |
title_fullStr |
Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo |
title_full_unstemmed |
Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo |
title_sort |
Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo |
author |
Silva, Luan Vinicius Moraes da |
author_facet |
Silva, Luan Vinicius Moraes da |
author_role |
author |
dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/2590190539349649 |
dc.contributor.advisor1orcid.por.fl_str_mv |
https://orcid.org/0000-0002-2582-1695 |
dc.contributor.author.fl_str_mv |
Silva, Luan Vinicius Moraes da |
dc.contributor.advisor1.fl_str_mv |
Cerri, Ricardo |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/6266519868438512 |
dc.contributor.authorID.fl_str_mv |
9e8fff97-21a0-48f8-be48-3949af3e9cad |
contributor_str_mv |
Cerri, Ricardo |
dc.subject.por.fl_str_mv |
Seleção de atributos Classificação hierárquica multirrótulo Aprendizado de máquina |
topic |
Seleção de atributos Classificação hierárquica multirrótulo Aprendizado de máquina CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
description |
Classification is the task of assigning data instances to classes. In Hierarchical Multi- label Classification, instances may belong to two or more classes (labels) simultaneously, where the classes are hierarchically structured. Feature Selection is part of the data pre- processing step and plays an important role in classification tasks for Machine Learning, as it can effectively reduce the size of the dataset, removing irrelevant/redundant attributes and improving prediction performance of the classifier. Although many real-world prob- lems are from multi-label hierarchical domain, most related research addresses the feature selection task focusing on single-label problems. In many works, even when the proposal addresses multiple labels, the associated class structure is not hierarchical. Therefore, in this work, we study how feature selection can be used in the context of Hierarchical Multi- Label Classification. For this purpose, we compare global feature selectors known in the literature with flat feature selectors adapted for hierarchical structures. The global fea- ture selectors used were Relief, Genie3 and Symbolic, and the flat feature selectors were ReliefF and Information Gain. For flat selectors, strategies were adopted to transform the Hierarchical Multi-label problem into a non-hierarchical multi-label problem, using the Label Powerset and Binary Relevance transformations. As main results, the global evaluators produced subsets of relevant features, improving the predictive performance while reducing the original dataset by up to 75% of the original dimensionality, with emphasis on the evaluators based on the Genie3 and Symbolic set. Despite the improvement, the flat evaluators were proportionally better compared to the global evaluators. |
publishDate |
2023 |
dc.date.accessioned.fl_str_mv |
2023-06-13T12:11:40Z |
dc.date.available.fl_str_mv |
2023-06-13T12:11:40Z |
dc.date.issued.fl_str_mv |
2023-04-06 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
SILVA, Luan Vinicius Moraes da. Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo. 2023. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18137. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/ufscar/18137 |
identifier_str_mv |
SILVA, Luan Vinicius Moraes da. Investigação de métodos de seleção de atributos para problemas de classificação hierárquica multirrótulo. 2023. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18137. |
url |
https://repositorio.ufscar.br/handle/ufscar/18137 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.confidence.fl_str_mv |
600 600 |
dc.relation.authority.fl_str_mv |
c997f5ee-db84-40ed-8971-521dd105f2d1 |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos Engenharia de Computação - EC |
dc.publisher.initials.fl_str_mv |
UFSCar |
publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos Engenharia de Computação - EC |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
instname_str |
Universidade Federal de São Carlos (UFSCAR) |
instacron_str |
UFSCAR |
institution |
UFSCAR |
reponame_str |
Repositório Institucional da UFSCAR |
collection |
Repositório Institucional da UFSCAR |
bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstream/ufscar/18137/1/TCC_Luan_Moraes.pdf https://repositorio.ufscar.br/bitstream/ufscar/18137/2/license_rdf https://repositorio.ufscar.br/bitstream/ufscar/18137/3/TCC_Luan_Moraes.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/18137/4/TCC_Luan_Moraes.pdf.jpg |
bitstream.checksum.fl_str_mv |
94497067d5fbe440cee4e460c6e2e959 f337d95da1fce0a22c77480e5e9a7aec f8dbe7d47084b0dcd53f2cec4d3dd9fb 25bec1fd83b5a9a9cc34427e3eb1697f |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
repository.mail.fl_str_mv |
|
_version_ |
1802136423810203648 |