Agrupamento e agregação de medidas objetivas para ranqueamento de regras em classificadores associativos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UNESP |
Texto Completo: | https://hdl.handle.net/11449/255038 |
Resumo: | Em diversos problemas é interessante o uso de algoritmos inerentemente interpretáveis, uma vez que facilita o entendimento do conhecimento obtido e das predições realizadas. Dentre estes algoritmos encontram-se os classificadores associativos (CAs). Os mesmos mesclam as tarefas de associação e classificação e são, portanto, induzidos em etapas. No que se refere a etapa de ordenação, a mesma é, em geral, realizada via o uso de medidas objetivas (MOs), utilizadas, entre outros propósitos, para ranquear as regras pelo seu grau de importância. Em geral, o método CSC (Confiança, Suporte, Cardinalidade) é o utilizado para se ordenar as regras, tendo como base as MOs padrão de regras de associação. Contudo, ao longo dos anos inúmeras MOs foram propostas, visando superar limitações de algumas das medidas até então existentes. Este grande número de MOs gerou um problema secundário, uma vez que não existe uma medida que seja adequada a todas as explorações. Neste contexto, novas propostas surgiram visando modificar a etapa de ranqueamento dos CAs, seja por meio: (i) de novas medidas e/ou medidas já existentes em outros contextos, mas aplicadas nesta etapa de maneira singular; (ii) da união (agregação) de medidas existentes de maneira a usá-las simultaneamente. A estratégia (ii), adotada neste trabalho, traz a vantagem de diminuir a necessidade da escolha de uma só medida, considerando também diferentes aspectos (semântica) para a ordenação das regras. Trabalhos recentes nesta linha vêm sendo propostos, os quais têm apresentado resultados promissores. Contudo, os mesmos apresentam problemas em relação ao desempenho e/ou a interpretabilidade dos modelos gerados. Em todos eles é possível verificar uma relação inversa entre desempenho e interpretabilidade, i.e., quando o desempenho do modelo é alto, a interpretabilidade é baixa (e vice-versa). Diante do exposto, este trabalho apresenta um método de ranqueamento via agregação de MOs, denominado AC.Rankₐ a ser incorporado a fluxos de indução de CAs, visando a obtenção de modelos que apresentem um melhor equilíbrio entre desempenho e interpretabilidade. Para que o AC.Rankₐ funcione, o mesmo deve ser instanciado com um conjunto de MOs e um método de agregação. Os conjuntos de MOs explorados foram tanto extraídos da literatura quanto propostos neste trabalho. Já os métodos de agregação foram extraídos tanto de abordagens de agregação de rankings como de análise de decisão multicritérios. O método proposto foi avaliado em diversos fluxos de indução de CAs em relação a desempenho, medido via F1-Macro, e interpretabilidade, medida via tamanho do modelo. A análise foi realizada comparando-se diversos fluxos de indução quando o ranqueamento acontece via CSC (baseline) e via AC.Rankₐ. Os resultados obtidos demonstram que o AC.Rankₐ consegue manter o desempenho dos modelos, porém com uma melhor interpretabilidade, diferentemente dos trabalhos da literatura. |
id |
UNSP_dbbf9422b7de97ec91fc1f6a06d016c1 |
---|---|
oai_identifier_str |
oai:repositorio.unesp.br:11449/255038 |
network_acronym_str |
UNSP |
network_name_str |
Repositório Institucional da UNESP |
repository_id_str |
2946 |
spelling |
Agrupamento e agregação de medidas objetivas para ranqueamento de regras em classificadores associativosClustering and aggregation of objective measures for ranking of rules in associative classifiersClassificadores associativosMedidas objetivasAgregação de medidas objetivasRanqueamento de regrasAgrupamento de medidas objetivasAssociative classifiersObjective measuresAggregation of objective measuresRules rankingClustering of objective measuresEm diversos problemas é interessante o uso de algoritmos inerentemente interpretáveis, uma vez que facilita o entendimento do conhecimento obtido e das predições realizadas. Dentre estes algoritmos encontram-se os classificadores associativos (CAs). Os mesmos mesclam as tarefas de associação e classificação e são, portanto, induzidos em etapas. No que se refere a etapa de ordenação, a mesma é, em geral, realizada via o uso de medidas objetivas (MOs), utilizadas, entre outros propósitos, para ranquear as regras pelo seu grau de importância. Em geral, o método CSC (Confiança, Suporte, Cardinalidade) é o utilizado para se ordenar as regras, tendo como base as MOs padrão de regras de associação. Contudo, ao longo dos anos inúmeras MOs foram propostas, visando superar limitações de algumas das medidas até então existentes. Este grande número de MOs gerou um problema secundário, uma vez que não existe uma medida que seja adequada a todas as explorações. Neste contexto, novas propostas surgiram visando modificar a etapa de ranqueamento dos CAs, seja por meio: (i) de novas medidas e/ou medidas já existentes em outros contextos, mas aplicadas nesta etapa de maneira singular; (ii) da união (agregação) de medidas existentes de maneira a usá-las simultaneamente. A estratégia (ii), adotada neste trabalho, traz a vantagem de diminuir a necessidade da escolha de uma só medida, considerando também diferentes aspectos (semântica) para a ordenação das regras. Trabalhos recentes nesta linha vêm sendo propostos, os quais têm apresentado resultados promissores. Contudo, os mesmos apresentam problemas em relação ao desempenho e/ou a interpretabilidade dos modelos gerados. Em todos eles é possível verificar uma relação inversa entre desempenho e interpretabilidade, i.e., quando o desempenho do modelo é alto, a interpretabilidade é baixa (e vice-versa). Diante do exposto, este trabalho apresenta um método de ranqueamento via agregação de MOs, denominado AC.Rankₐ a ser incorporado a fluxos de indução de CAs, visando a obtenção de modelos que apresentem um melhor equilíbrio entre desempenho e interpretabilidade. Para que o AC.Rankₐ funcione, o mesmo deve ser instanciado com um conjunto de MOs e um método de agregação. Os conjuntos de MOs explorados foram tanto extraídos da literatura quanto propostos neste trabalho. Já os métodos de agregação foram extraídos tanto de abordagens de agregação de rankings como de análise de decisão multicritérios. O método proposto foi avaliado em diversos fluxos de indução de CAs em relação a desempenho, medido via F1-Macro, e interpretabilidade, medida via tamanho do modelo. A análise foi realizada comparando-se diversos fluxos de indução quando o ranqueamento acontece via CSC (baseline) e via AC.Rankₐ. Os resultados obtidos demonstram que o AC.Rankₐ consegue manter o desempenho dos modelos, porém com uma melhor interpretabilidade, diferentemente dos trabalhos da literatura.In several problems the use of inherently interpretable algorithms is interesting, as it facilitates the understanding of the obtained knowledge and the predictions made. Among these algorithms are the associative classifiers (ACs). They merge the tasks of association and classification and are, therefore, induced in stages. Regarding the ranking step, it is, in general, carried out through the use of objective measures (OMs), used, among other purposes, to rank the rules according to their level of importance. In general, the CSC (Confidence, Support, Cardinality) method is used to sort the rules, based on the standard OMs of association rules. However, over the years, many OMs have been proposed, aiming to overcome limitations of some of the previously existing measures. This large number of OMs led to a secondary problem, since there is no measure that is suitable for all explorations. In this context, new proposals have emerged aiming to modify the ACs ranking step, either through: (i) new measures and/or measures that already exist in other contexts, but applied at this step in a unique way; (ii) the union (aggregation) of existing measures in order to use them simultaneously. Strategy (ii), adopted in this work, has the advantage of reducing the need to choose a single measure, also considering different aspects (semantics) for ranking the rules. Recent works in this line have been proposed, which have shown promising results. However, they present problems in relation to the performance and/or interpretability of the generated models. In all of them it is possible to verify an inverse relationship between performance and interpretability, i.e., when model performance is high, interpretability is low (and vice versa). Considering the above, this work presents a ranking method via aggregation of OMs, named AC.Rankₐ, to be incorporated into ACs induction flows, aiming to obtain models that present a better balance between performance and interpretability. For AC.Rankₐ to work, it must be instantiated with a set of OMs and an aggregation method. The sets of OMs explored were both extracted from the literature and proposed in this work. The aggregation methods were extracted from both ranking aggregation and multi-criteria decision analysis approaches. The proposed method was evaluated in several ACs induction flows in terms of performance, measured via F1-Macro, and interpretability, measured via model size. The analysis was carried out by comparing different induction flows when ranking takes place via CSC (baseline) and via AC.Rankₐ. The results obtained demonstrate that AC.Rankₐ can maintain the performance of the models, but with better interpretability, unlike works in the literature.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: 001Universidade Estadual Paulista (Unesp)Carvalho, Veronica Oliveira de [UNESP]Dall'Agnol, Maicon2024-04-09T12:11:58Z2024-04-09T12:11:58Z2024-02-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/11449/25503859987434898904100000-0003-1172-4859porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-04-10T06:09:55Zoai:repositorio.unesp.br:11449/255038Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T18:16:04.565125Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false |
dc.title.none.fl_str_mv |
Agrupamento e agregação de medidas objetivas para ranqueamento de regras em classificadores associativos Clustering and aggregation of objective measures for ranking of rules in associative classifiers |
title |
Agrupamento e agregação de medidas objetivas para ranqueamento de regras em classificadores associativos |
spellingShingle |
Agrupamento e agregação de medidas objetivas para ranqueamento de regras em classificadores associativos Dall'Agnol, Maicon Classificadores associativos Medidas objetivas Agregação de medidas objetivas Ranqueamento de regras Agrupamento de medidas objetivas Associative classifiers Objective measures Aggregation of objective measures Rules ranking Clustering of objective measures |
title_short |
Agrupamento e agregação de medidas objetivas para ranqueamento de regras em classificadores associativos |
title_full |
Agrupamento e agregação de medidas objetivas para ranqueamento de regras em classificadores associativos |
title_fullStr |
Agrupamento e agregação de medidas objetivas para ranqueamento de regras em classificadores associativos |
title_full_unstemmed |
Agrupamento e agregação de medidas objetivas para ranqueamento de regras em classificadores associativos |
title_sort |
Agrupamento e agregação de medidas objetivas para ranqueamento de regras em classificadores associativos |
author |
Dall'Agnol, Maicon |
author_facet |
Dall'Agnol, Maicon |
author_role |
author |
dc.contributor.none.fl_str_mv |
Carvalho, Veronica Oliveira de [UNESP] |
dc.contributor.author.fl_str_mv |
Dall'Agnol, Maicon |
dc.subject.por.fl_str_mv |
Classificadores associativos Medidas objetivas Agregação de medidas objetivas Ranqueamento de regras Agrupamento de medidas objetivas Associative classifiers Objective measures Aggregation of objective measures Rules ranking Clustering of objective measures |
topic |
Classificadores associativos Medidas objetivas Agregação de medidas objetivas Ranqueamento de regras Agrupamento de medidas objetivas Associative classifiers Objective measures Aggregation of objective measures Rules ranking Clustering of objective measures |
description |
Em diversos problemas é interessante o uso de algoritmos inerentemente interpretáveis, uma vez que facilita o entendimento do conhecimento obtido e das predições realizadas. Dentre estes algoritmos encontram-se os classificadores associativos (CAs). Os mesmos mesclam as tarefas de associação e classificação e são, portanto, induzidos em etapas. No que se refere a etapa de ordenação, a mesma é, em geral, realizada via o uso de medidas objetivas (MOs), utilizadas, entre outros propósitos, para ranquear as regras pelo seu grau de importância. Em geral, o método CSC (Confiança, Suporte, Cardinalidade) é o utilizado para se ordenar as regras, tendo como base as MOs padrão de regras de associação. Contudo, ao longo dos anos inúmeras MOs foram propostas, visando superar limitações de algumas das medidas até então existentes. Este grande número de MOs gerou um problema secundário, uma vez que não existe uma medida que seja adequada a todas as explorações. Neste contexto, novas propostas surgiram visando modificar a etapa de ranqueamento dos CAs, seja por meio: (i) de novas medidas e/ou medidas já existentes em outros contextos, mas aplicadas nesta etapa de maneira singular; (ii) da união (agregação) de medidas existentes de maneira a usá-las simultaneamente. A estratégia (ii), adotada neste trabalho, traz a vantagem de diminuir a necessidade da escolha de uma só medida, considerando também diferentes aspectos (semântica) para a ordenação das regras. Trabalhos recentes nesta linha vêm sendo propostos, os quais têm apresentado resultados promissores. Contudo, os mesmos apresentam problemas em relação ao desempenho e/ou a interpretabilidade dos modelos gerados. Em todos eles é possível verificar uma relação inversa entre desempenho e interpretabilidade, i.e., quando o desempenho do modelo é alto, a interpretabilidade é baixa (e vice-versa). Diante do exposto, este trabalho apresenta um método de ranqueamento via agregação de MOs, denominado AC.Rankₐ a ser incorporado a fluxos de indução de CAs, visando a obtenção de modelos que apresentem um melhor equilíbrio entre desempenho e interpretabilidade. Para que o AC.Rankₐ funcione, o mesmo deve ser instanciado com um conjunto de MOs e um método de agregação. Os conjuntos de MOs explorados foram tanto extraídos da literatura quanto propostos neste trabalho. Já os métodos de agregação foram extraídos tanto de abordagens de agregação de rankings como de análise de decisão multicritérios. O método proposto foi avaliado em diversos fluxos de indução de CAs em relação a desempenho, medido via F1-Macro, e interpretabilidade, medida via tamanho do modelo. A análise foi realizada comparando-se diversos fluxos de indução quando o ranqueamento acontece via CSC (baseline) e via AC.Rankₐ. Os resultados obtidos demonstram que o AC.Rankₐ consegue manter o desempenho dos modelos, porém com uma melhor interpretabilidade, diferentemente dos trabalhos da literatura. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-04-09T12:11:58Z 2024-04-09T12:11:58Z 2024-02-27 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/11449/255038 5998743489890410 0000-0003-1172-4859 |
url |
https://hdl.handle.net/11449/255038 |
identifier_str_mv |
5998743489890410 0000-0003-1172-4859 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP |
instname_str |
Universidade Estadual Paulista (UNESP) |
instacron_str |
UNESP |
institution |
UNESP |
reponame_str |
Repositório Institucional da UNESP |
collection |
Repositório Institucional da UNESP |
repository.name.fl_str_mv |
Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP) |
repository.mail.fl_str_mv |
|
_version_ |
1808128914329960448 |