Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo

Detalhes bibliográficos
Autor(a) principal: Santana, Alvaro Mateus
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/28969
Resumo: Dados faltantes são problemas comumente enfrentados por algoritmos de aprendizagem de máquina (AM) devido a diversos motivos, como por exemplo falha na inserção manual, medições incorretas de determinado sensor entre outros. Considerando isso, se torna importante usar métodos adequados para imputar dados ausentes em conjuntos de dados para tornar a aprendizagem do algoritmo mais eficiente. O problema de dados faltantes é mais desafiador quando se trata de bases de dados com classificação hierárquica multirrótulo com hierarquia estruturadas por um Grafo Acíclico Direcionado ou DAG. Este trabalho está inserido neste cenário, onde as classes estão dispostas em uma hierarquia podendo cada instância possuir mais de uma classe. Para resolver o este problema, foi criado um método de imputação de dados faltantes usando uma abordagem baseada em três tipos de regressão: linear, polinomial e múltipla. O algoritmo inicialmente verifica se há correlação entre os dados, utilizando a regressão somente caso esta correlação exista, caso contrário a abordagem de média dos valores observados é adotada. O método proposto é dividido em três etapas: verificação hierárquica multirrótulo, cálculo de correlação e aplicação do modelo. Para realização dos experimentos foram utilizadas 7 bases de dados da Ontologia Gênica com hierarquia estruturadas em formato de DAG. Os resultados mostraram que o uso da regressão apresentou a métrica baseada na área sob a curva de previsão e revocação (AUPRC) superior em 3 das bases de dados testadas quando comparadas as abordagens de não imputação de dados faltantes e média dos valores observados. Além disso, foram realizados os testes estatísticos de Friedman e Wilcoxon buscando comparar os resultados de todos os algoritmos. Os testes expõem certa diferença entre os resultados, porém mostraram que estatisticamente a diferença não é significativa.
id UTFPR-12_7dc4c6d6d7cc95ac32732bd09f4b9d5a
oai_identifier_str oai:repositorio.utfpr.edu.br:1/28969
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling 2022-06-30T20:56:42Z2022-06-30T20:56:42Z2021-12-07SANTANA, Alvaro Mateus. Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2021.http://repositorio.utfpr.edu.br/jspui/handle/1/28969Dados faltantes são problemas comumente enfrentados por algoritmos de aprendizagem de máquina (AM) devido a diversos motivos, como por exemplo falha na inserção manual, medições incorretas de determinado sensor entre outros. Considerando isso, se torna importante usar métodos adequados para imputar dados ausentes em conjuntos de dados para tornar a aprendizagem do algoritmo mais eficiente. O problema de dados faltantes é mais desafiador quando se trata de bases de dados com classificação hierárquica multirrótulo com hierarquia estruturadas por um Grafo Acíclico Direcionado ou DAG. Este trabalho está inserido neste cenário, onde as classes estão dispostas em uma hierarquia podendo cada instância possuir mais de uma classe. Para resolver o este problema, foi criado um método de imputação de dados faltantes usando uma abordagem baseada em três tipos de regressão: linear, polinomial e múltipla. O algoritmo inicialmente verifica se há correlação entre os dados, utilizando a regressão somente caso esta correlação exista, caso contrário a abordagem de média dos valores observados é adotada. O método proposto é dividido em três etapas: verificação hierárquica multirrótulo, cálculo de correlação e aplicação do modelo. Para realização dos experimentos foram utilizadas 7 bases de dados da Ontologia Gênica com hierarquia estruturadas em formato de DAG. Os resultados mostraram que o uso da regressão apresentou a métrica baseada na área sob a curva de previsão e revocação (AUPRC) superior em 3 das bases de dados testadas quando comparadas as abordagens de não imputação de dados faltantes e média dos valores observados. Além disso, foram realizados os testes estatísticos de Friedman e Wilcoxon buscando comparar os resultados de todos os algoritmos. Os testes expõem certa diferença entre os resultados, porém mostraram que estatisticamente a diferença não é significativa.Missing data are problems commonly faced by machine learning (ML) algorithms due to several reasons, such as manual insertion failure, incorrect measurements of a given sensor, among others. Taking this into consideration, it becomes essential to use appropriate methods to impute missing data into datasets and make algorithm learning more efficient. The missing data problem is more challenging when it comes to databases with multi-label hierarchical classification with hierarchy structured by a Directed Acyclic Graph or DAG. This work is part of this scenario, where classes are arranged in a hierarchy, each instance may have more than one class. To solve this problem, a method of missing data imputation is created using three types of regression-based approach: linear, polynomial and multiple. The algorithm initially checks for correlation between the data, using regression only if this correlation exists, otherwise the average approach. observed values is adopted. The proposed method is divided into three steps: multi-label hierarchical verification, correlation calculation and model application. To perform the experiments, 7 databases of the Genetic Ontology with hierarchy structured in DAG format were used. The results showed that the use of regression presented the superior area under the precision-recall curve (AUPRC) metric in 3 of the tested databases when comparing the non-imputation approaches of missing data and mean of observed values. In addition, the Friedman and Wilcoxon statistical tests were performed in order to compare the results of all algorithms. The tests show a certain difference between the results, but they showed that statistically the difference is not significant.porUniversidade Tecnológica Federal do ParanáPonta GrossaPrograma de Pós-Graduação em Ciência da ComputaçãoUTFPRBrasilhttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOEngenharia/Tecnologia/GestãoAprendizado do computadorSistemas de coleta automática de dadosClassificaçãoAnálise de regressãoAlgorítmosMachine learningAutomatic data collection systemsClassificationRegression analysisAlgorithmsUma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótuloAn approach for missing values imputation in multi-label hierarchical classification problemsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisPonta GrossaBorges, Helyane Bronoskihttps://orcid.org/0000-0002-9153-3819http://lattes.cnpq.br/8340106221427112Borges, Helyane Bronoskihttps://orcid.org/0000-0002-9153-3819http://lattes.cnpq.br/8340106221427112Rocha, José Carlos Ferreira dahttps://orcid.org/0000-0002-4050-281Xhttp://lattes.cnpq.br/3945991870627440Matos, Simone Nasserhttps://orcid.org/0000-0002-5362-2343http://lattes.cnpq.br/2608583610949216https://orcid.org/0000-0002-8570-9515http://lattes.cnpq.br/5680932598081503Santana, Alvaro Mateusreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRORIGINALabordagemimputacaovaloresfaltantes.pdfapplication/pdf2617337http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28969/1/abordagemimputacaovaloresfaltantes.pdfa567fb5029b6da6ffa7ba71f61b5219eMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8908http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28969/2/license_rdf0175ea4a2d4caec4bbcc37e300941108MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28969/3/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD53TEXTabordagemimputacaovaloresfaltantes.pdf.txtabordagemimputacaovaloresfaltantes.pdf.txtExtracted texttext/plain178423http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28969/4/abordagemimputacaovaloresfaltantes.pdf.txt3d469d267b21fdd0d3b2eebbe6a09913MD54THUMBNAILabordagemimputacaovaloresfaltantes.pdf.jpgabordagemimputacaovaloresfaltantes.pdf.jpgGenerated Thumbnailimage/jpeg1365http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28969/5/abordagemimputacaovaloresfaltantes.pdf.jpg3b3e4fe716cee08fedea6e2cc4da1d3bMD551/289692022-07-01 03:06:14.067oai:repositorio.utfpr.edu.br:1/28969TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2022-07-01T06:06:14Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo
dc.title.alternative.pt_BR.fl_str_mv An approach for missing values imputation in multi-label hierarchical classification problems
title Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo
spellingShingle Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo
Santana, Alvaro Mateus
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Aprendizado do computador
Sistemas de coleta automática de dados
Classificação
Análise de regressão
Algorítmos
Machine learning
Automatic data collection systems
Classification
Regression analysis
Algorithms
Engenharia/Tecnologia/Gestão
title_short Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo
title_full Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo
title_fullStr Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo
title_full_unstemmed Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo
title_sort Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo
author Santana, Alvaro Mateus
author_facet Santana, Alvaro Mateus
author_role author
dc.contributor.advisor1.fl_str_mv Borges, Helyane Bronoski
dc.contributor.advisor1ID.fl_str_mv https://orcid.org/0000-0002-9153-3819
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/8340106221427112
dc.contributor.referee1.fl_str_mv Borges, Helyane Bronoski
dc.contributor.referee1ID.fl_str_mv https://orcid.org/0000-0002-9153-3819
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/8340106221427112
dc.contributor.referee2.fl_str_mv Rocha, José Carlos Ferreira da
dc.contributor.referee2ID.fl_str_mv https://orcid.org/0000-0002-4050-281X
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/3945991870627440
dc.contributor.referee3.fl_str_mv Matos, Simone Nasser
dc.contributor.referee3ID.fl_str_mv https://orcid.org/0000-0002-5362-2343
dc.contributor.referee3Lattes.fl_str_mv http://lattes.cnpq.br/2608583610949216
dc.contributor.authorID.fl_str_mv https://orcid.org/0000-0002-8570-9515
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/5680932598081503
dc.contributor.author.fl_str_mv Santana, Alvaro Mateus
contributor_str_mv Borges, Helyane Bronoski
Borges, Helyane Bronoski
Rocha, José Carlos Ferreira da
Matos, Simone Nasser
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Aprendizado do computador
Sistemas de coleta automática de dados
Classificação
Análise de regressão
Algorítmos
Machine learning
Automatic data collection systems
Classification
Regression analysis
Algorithms
Engenharia/Tecnologia/Gestão
dc.subject.por.fl_str_mv Aprendizado do computador
Sistemas de coleta automática de dados
Classificação
Análise de regressão
Algorítmos
Machine learning
Automatic data collection systems
Classification
Regression analysis
Algorithms
dc.subject.capes.pt_BR.fl_str_mv Engenharia/Tecnologia/Gestão
description Dados faltantes são problemas comumente enfrentados por algoritmos de aprendizagem de máquina (AM) devido a diversos motivos, como por exemplo falha na inserção manual, medições incorretas de determinado sensor entre outros. Considerando isso, se torna importante usar métodos adequados para imputar dados ausentes em conjuntos de dados para tornar a aprendizagem do algoritmo mais eficiente. O problema de dados faltantes é mais desafiador quando se trata de bases de dados com classificação hierárquica multirrótulo com hierarquia estruturadas por um Grafo Acíclico Direcionado ou DAG. Este trabalho está inserido neste cenário, onde as classes estão dispostas em uma hierarquia podendo cada instância possuir mais de uma classe. Para resolver o este problema, foi criado um método de imputação de dados faltantes usando uma abordagem baseada em três tipos de regressão: linear, polinomial e múltipla. O algoritmo inicialmente verifica se há correlação entre os dados, utilizando a regressão somente caso esta correlação exista, caso contrário a abordagem de média dos valores observados é adotada. O método proposto é dividido em três etapas: verificação hierárquica multirrótulo, cálculo de correlação e aplicação do modelo. Para realização dos experimentos foram utilizadas 7 bases de dados da Ontologia Gênica com hierarquia estruturadas em formato de DAG. Os resultados mostraram que o uso da regressão apresentou a métrica baseada na área sob a curva de previsão e revocação (AUPRC) superior em 3 das bases de dados testadas quando comparadas as abordagens de não imputação de dados faltantes e média dos valores observados. Além disso, foram realizados os testes estatísticos de Friedman e Wilcoxon buscando comparar os resultados de todos os algoritmos. Os testes expõem certa diferença entre os resultados, porém mostraram que estatisticamente a diferença não é significativa.
publishDate 2021
dc.date.issued.fl_str_mv 2021-12-07
dc.date.accessioned.fl_str_mv 2022-06-30T20:56:42Z
dc.date.available.fl_str_mv 2022-06-30T20:56:42Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SANTANA, Alvaro Mateus. Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2021.
dc.identifier.uri.fl_str_mv http://repositorio.utfpr.edu.br/jspui/handle/1/28969
identifier_str_mv SANTANA, Alvaro Mateus. Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2021.
url http://repositorio.utfpr.edu.br/jspui/handle/1/28969
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/4.0/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Ponta Grossa
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv UTFPR
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Ponta Grossa
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28969/1/abordagemimputacaovaloresfaltantes.pdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28969/2/license_rdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28969/3/license.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28969/4/abordagemimputacaovaloresfaltantes.pdf.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/28969/5/abordagemimputacaovaloresfaltantes.pdf.jpg
bitstream.checksum.fl_str_mv a567fb5029b6da6ffa7ba71f61b5219e
0175ea4a2d4caec4bbcc37e300941108
b9d82215ab23456fa2d8b49c5df1b95b
3d469d267b21fdd0d3b2eebbe6a09913
3b3e4fe716cee08fedea6e2cc4da1d3b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_ 1805923236624465920