Indução de árvores de decisão oblíquas como explicadores de predições por modelos de aprendizado de máquina
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFMG |
Texto Completo: | http://hdl.handle.net/1843/47408 |
Resumo: | Os métodos de Aprendizado de Máquina (Machine Learning ou ML) têm sido largamente utilizados em diversas aplicações, devido ao alto poder de generalização e pela capacidade de obter relações complexas entre dados. Embora os sistemas consigam este feito, normalmente não existe uma relação clara do porque determinada decisão foi tomada, bem como no impacto da mudança dos atributos nas saídas geradas. A necessidade de compreender esses métodos torna-se ainda mais presente diante de leis que garantam o ``direito à explicação'', como previsto no artigo 20 da Lei Geral de Proteção de Dados (LGPD), e em outras regulamentações nesse sentido em todo o mundo. Em virtude disso, neste trabalho foi proposta a investigação quanto a indução de Árvores de Decisões Oblíquas - também conhecidas como Perceptron Decision Tree ou PDT - como método de interpretabilidade local para modelos de ML complexos. Uma vez que a PDT é transparente, pode-se utilizá-la para simular localmente o comportamento de modelos mais complexos e assim extrair informações sobre eles por meio dela. Tendo isso em vista, foi proposta a aproximação local das predições do método complexo a ser explicado, através da indução de PDTs, as quais têm os pesos evoluídos por meio de uma técnica heurística de otimização, baseada em computação evolucionária. Com a árvore evoluída, gera-se explicações sobre as decisões locais de modelos opacos, por meio do fornecimento das regras seguidas para obtenção das saídas, exposição da hierarquia de importância local dos atributos e limites de decisões associados a cada um deles. Foi apresentado também um novo modelo de PDT para problemas de regressão, o qual é utilizado para gerar explicações locais para este tipo de problema. A aplicação final gerada foi nomeada como Perceptron Decision Tree Explainer (ou PDTX), que em suma, é um método de interpretabilidade local agnóstico em relação ao modelo, que trabalha com dados tabulares estruturados, e que consegue fazer uma aproximação melhor do que alguns métodos clássicos da literatura, mantendo além da estabilidade das explicações geradas, a simplicidade delas. Adicionalmente, foi feito o estudo do efeito da aplicação de três técnicas de amostragem local em conjunto com o PDTX, concernente à estabilidade das explicações geradas, e da redução de dimensionalidade por cinco métodos de redução de atributos presentes na literatura, no impacto da qualidade da aproximação local. Os resultados obtidos são promissores: em comparação com o LIME (Local Interpretable Model-Agnostic Explanations) e Árvores de Decisões (DT), o PDTX obteve desempenho significativamente melhor para as métricas conhecidas como fidelidade e estabilidade, tanto no contexto de classificação, como no de regressão, e é comparável ao LIME em termos de simplicidade. |
id |
UFMG_eea42ceb37fac57e4628727dbf0c020b |
---|---|
oai_identifier_str |
oai:repositorio.ufmg.br:1843/47408 |
network_acronym_str |
UFMG |
network_name_str |
Repositório Institucional da UFMG |
repository_id_str |
|
spelling |
Frederico Gadelha Guimarãeshttp://lattes.cnpq.br/2472681535872194Tatiane Nogueira RiosSandra Eliza Fontes de AvilaJaime Arturo Ramírezhttp://lattes.cnpq.br/7403650487163549Samara Silva Santos2022-11-23T18:35:28Z2022-11-23T18:35:28Z2022-07-14http://hdl.handle.net/1843/47408Os métodos de Aprendizado de Máquina (Machine Learning ou ML) têm sido largamente utilizados em diversas aplicações, devido ao alto poder de generalização e pela capacidade de obter relações complexas entre dados. Embora os sistemas consigam este feito, normalmente não existe uma relação clara do porque determinada decisão foi tomada, bem como no impacto da mudança dos atributos nas saídas geradas. A necessidade de compreender esses métodos torna-se ainda mais presente diante de leis que garantam o ``direito à explicação'', como previsto no artigo 20 da Lei Geral de Proteção de Dados (LGPD), e em outras regulamentações nesse sentido em todo o mundo. Em virtude disso, neste trabalho foi proposta a investigação quanto a indução de Árvores de Decisões Oblíquas - também conhecidas como Perceptron Decision Tree ou PDT - como método de interpretabilidade local para modelos de ML complexos. Uma vez que a PDT é transparente, pode-se utilizá-la para simular localmente o comportamento de modelos mais complexos e assim extrair informações sobre eles por meio dela. Tendo isso em vista, foi proposta a aproximação local das predições do método complexo a ser explicado, através da indução de PDTs, as quais têm os pesos evoluídos por meio de uma técnica heurística de otimização, baseada em computação evolucionária. Com a árvore evoluída, gera-se explicações sobre as decisões locais de modelos opacos, por meio do fornecimento das regras seguidas para obtenção das saídas, exposição da hierarquia de importância local dos atributos e limites de decisões associados a cada um deles. Foi apresentado também um novo modelo de PDT para problemas de regressão, o qual é utilizado para gerar explicações locais para este tipo de problema. A aplicação final gerada foi nomeada como Perceptron Decision Tree Explainer (ou PDTX), que em suma, é um método de interpretabilidade local agnóstico em relação ao modelo, que trabalha com dados tabulares estruturados, e que consegue fazer uma aproximação melhor do que alguns métodos clássicos da literatura, mantendo além da estabilidade das explicações geradas, a simplicidade delas. Adicionalmente, foi feito o estudo do efeito da aplicação de três técnicas de amostragem local em conjunto com o PDTX, concernente à estabilidade das explicações geradas, e da redução de dimensionalidade por cinco métodos de redução de atributos presentes na literatura, no impacto da qualidade da aproximação local. Os resultados obtidos são promissores: em comparação com o LIME (Local Interpretable Model-Agnostic Explanations) e Árvores de Decisões (DT), o PDTX obteve desempenho significativamente melhor para as métricas conhecidas como fidelidade e estabilidade, tanto no contexto de classificação, como no de regressão, e é comparável ao LIME em termos de simplicidade.Machine Learning methods (ML) have been widely used in several applications, due to the high power of generalization and the ability to obtain complex relationships between data. Although systems achieve this feat, there is usually no clear relationship as to why a particular decision was made, as well as the impact of changing attributes on the generated outputs. The need to understand these methods becomes even more present in the face of laws that guarantee the ``right to explanation'', as provided for in article 20 of the General Data Protection Law (LGPD), and in other regulations in this sense throughout the world. As a result, this work proposes to investigate the induction of Oblique Decision Trees - also known as Perceptron Decision Tree or PDT - as a method of local interpretability for complex ML models. Since the PDT is transparent, it can be used to locally simulate the behavior of more complex models and thus extract information about them through it. With this in mind, a local approximation of the predictions of the complex method to be explained was proposed, through the induction of PDTs, whose weights evolved through a heuristic optimization technique, based on evolutionary computation. With the grown tree, explanations about the local decisions of opaque models are generated, by providing the rules followed to obtain the outputs, exposing the hierarchy of local importance of the attributes and decision limits associated with each one of them. A new PDT model for regression problems was also presented, which is used to generate local explanations for this type of problem. The final application generated was named Perceptron Decision Tree Explainer (or PDTX), which, in short, is a model-agnostic local interpretability method, which works with structured tabular data, and which can make a better approximation than some classical methods in the literature, maintaining, in addition to the stability of the generated explanations, their simplicity. Additionally, a study was made on the effect of applying three local sampling techniques together with PDTX, concerning the stability of the generated explanations, and the reduction of dimensionality by five methods of reduction of attributes present in the literature, on the impact of the quality of the local approach. The results obtained are promising: compared to LIME (Local Interpretable Model-Agnostic Explanations) and Decision Trees (DT), PDTX performed significantly better for known metrics such as fidelity and stability, both in the context of classification, as in regression, and is comparable to LIME in terms of simplicity.CNPq - Conselho Nacional de Desenvolvimento Científico e TecnológicoFAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas GeraisCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal de Minas GeraisPrograma de Pós-Graduação em Engenharia ElétricaUFMGBrasilENG - DEPARTAMENTO DE ENGENHARIA ELÉTRICAEngenharia elétricaAprendizado do computadorÁrvores de decisãoInteligência artificialInteligência artificial explicávelInterpretabilidade em IAInteligência artificialAprendizado de máquinaÁrvores de decisões oblíquasIndução de árvores de decisão oblíquas como explicadores de predições por modelos de aprendizado de máquinainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGLICENSElicense.txtlicense.txttext/plain; charset=utf-82118https://repositorio.ufmg.br/bitstream/1843/47408/2/license.txtcda590c95a0b51b4d15f60c9642ca272MD52ORIGINALDissertação_Samara_Silva_Santos-1.pdfDissertação_Samara_Silva_Santos-1.pdfapplication/pdf3326163https://repositorio.ufmg.br/bitstream/1843/47408/1/Disserta%c3%a7%c3%a3o_Samara_Silva_Santos-1.pdf8f430b9edf83e45ee3f9d23fd1755ae4MD511843/474082022-11-23 15:35:29.142oai:repositorio.ufmg.br:1843/47408TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEgRE8gUkVQT1NJVMOTUklPIElOU1RJVFVDSU9OQUwgREEgVUZNRwoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIChSSS1VRk1HKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZSBpcnJldm9nw6F2ZWwgZGUgcmVwcm9kdXppciBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBkZWNsYXJhIHF1ZSBjb25oZWNlIGEgcG9sw610aWNhIGRlIGNvcHlyaWdodCBkYSBlZGl0b3JhIGRvIHNldSBkb2N1bWVudG8gZSBxdWUgY29uaGVjZSBlIGFjZWl0YSBhcyBEaXJldHJpemVzIGRvIFJJLVVGTUcuCgpWb2PDqiBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGTUcgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRlIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHB1YmxpY2HDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBQVUJMSUNBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lKHMpIG91IG8ocykgbm9tZXMocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2022-11-23T18:35:29Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.pt_BR.fl_str_mv |
Indução de árvores de decisão oblíquas como explicadores de predições por modelos de aprendizado de máquina |
title |
Indução de árvores de decisão oblíquas como explicadores de predições por modelos de aprendizado de máquina |
spellingShingle |
Indução de árvores de decisão oblíquas como explicadores de predições por modelos de aprendizado de máquina Samara Silva Santos Inteligência artificial explicável Interpretabilidade em IA Inteligência artificial Aprendizado de máquina Árvores de decisões oblíquas Engenharia elétrica Aprendizado do computador Árvores de decisão Inteligência artificial |
title_short |
Indução de árvores de decisão oblíquas como explicadores de predições por modelos de aprendizado de máquina |
title_full |
Indução de árvores de decisão oblíquas como explicadores de predições por modelos de aprendizado de máquina |
title_fullStr |
Indução de árvores de decisão oblíquas como explicadores de predições por modelos de aprendizado de máquina |
title_full_unstemmed |
Indução de árvores de decisão oblíquas como explicadores de predições por modelos de aprendizado de máquina |
title_sort |
Indução de árvores de decisão oblíquas como explicadores de predições por modelos de aprendizado de máquina |
author |
Samara Silva Santos |
author_facet |
Samara Silva Santos |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Frederico Gadelha Guimarães |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/2472681535872194 |
dc.contributor.referee1.fl_str_mv |
Tatiane Nogueira Rios |
dc.contributor.referee2.fl_str_mv |
Sandra Eliza Fontes de Avila |
dc.contributor.referee3.fl_str_mv |
Jaime Arturo Ramírez |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/7403650487163549 |
dc.contributor.author.fl_str_mv |
Samara Silva Santos |
contributor_str_mv |
Frederico Gadelha Guimarães Tatiane Nogueira Rios Sandra Eliza Fontes de Avila Jaime Arturo Ramírez |
dc.subject.por.fl_str_mv |
Inteligência artificial explicável Interpretabilidade em IA Inteligência artificial Aprendizado de máquina Árvores de decisões oblíquas |
topic |
Inteligência artificial explicável Interpretabilidade em IA Inteligência artificial Aprendizado de máquina Árvores de decisões oblíquas Engenharia elétrica Aprendizado do computador Árvores de decisão Inteligência artificial |
dc.subject.other.pt_BR.fl_str_mv |
Engenharia elétrica Aprendizado do computador Árvores de decisão Inteligência artificial |
description |
Os métodos de Aprendizado de Máquina (Machine Learning ou ML) têm sido largamente utilizados em diversas aplicações, devido ao alto poder de generalização e pela capacidade de obter relações complexas entre dados. Embora os sistemas consigam este feito, normalmente não existe uma relação clara do porque determinada decisão foi tomada, bem como no impacto da mudança dos atributos nas saídas geradas. A necessidade de compreender esses métodos torna-se ainda mais presente diante de leis que garantam o ``direito à explicação'', como previsto no artigo 20 da Lei Geral de Proteção de Dados (LGPD), e em outras regulamentações nesse sentido em todo o mundo. Em virtude disso, neste trabalho foi proposta a investigação quanto a indução de Árvores de Decisões Oblíquas - também conhecidas como Perceptron Decision Tree ou PDT - como método de interpretabilidade local para modelos de ML complexos. Uma vez que a PDT é transparente, pode-se utilizá-la para simular localmente o comportamento de modelos mais complexos e assim extrair informações sobre eles por meio dela. Tendo isso em vista, foi proposta a aproximação local das predições do método complexo a ser explicado, através da indução de PDTs, as quais têm os pesos evoluídos por meio de uma técnica heurística de otimização, baseada em computação evolucionária. Com a árvore evoluída, gera-se explicações sobre as decisões locais de modelos opacos, por meio do fornecimento das regras seguidas para obtenção das saídas, exposição da hierarquia de importância local dos atributos e limites de decisões associados a cada um deles. Foi apresentado também um novo modelo de PDT para problemas de regressão, o qual é utilizado para gerar explicações locais para este tipo de problema. A aplicação final gerada foi nomeada como Perceptron Decision Tree Explainer (ou PDTX), que em suma, é um método de interpretabilidade local agnóstico em relação ao modelo, que trabalha com dados tabulares estruturados, e que consegue fazer uma aproximação melhor do que alguns métodos clássicos da literatura, mantendo além da estabilidade das explicações geradas, a simplicidade delas. Adicionalmente, foi feito o estudo do efeito da aplicação de três técnicas de amostragem local em conjunto com o PDTX, concernente à estabilidade das explicações geradas, e da redução de dimensionalidade por cinco métodos de redução de atributos presentes na literatura, no impacto da qualidade da aproximação local. Os resultados obtidos são promissores: em comparação com o LIME (Local Interpretable Model-Agnostic Explanations) e Árvores de Decisões (DT), o PDTX obteve desempenho significativamente melhor para as métricas conhecidas como fidelidade e estabilidade, tanto no contexto de classificação, como no de regressão, e é comparável ao LIME em termos de simplicidade. |
publishDate |
2022 |
dc.date.accessioned.fl_str_mv |
2022-11-23T18:35:28Z |
dc.date.available.fl_str_mv |
2022-11-23T18:35:28Z |
dc.date.issued.fl_str_mv |
2022-07-14 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1843/47408 |
url |
http://hdl.handle.net/1843/47408 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Engenharia Elétrica |
dc.publisher.initials.fl_str_mv |
UFMG |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
ENG - DEPARTAMENTO DE ENGENHARIA ELÉTRICA |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Repositório Institucional da UFMG |
collection |
Repositório Institucional da UFMG |
bitstream.url.fl_str_mv |
https://repositorio.ufmg.br/bitstream/1843/47408/2/license.txt https://repositorio.ufmg.br/bitstream/1843/47408/1/Disserta%c3%a7%c3%a3o_Samara_Silva_Santos-1.pdf |
bitstream.checksum.fl_str_mv |
cda590c95a0b51b4d15f60c9642ca272 8f430b9edf83e45ee3f9d23fd1755ae4 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
|
_version_ |
1803589428104396800 |