Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo

Detalhes bibliográficos
Autor(a) principal: Scrobote, Adriana
Data de Publicação: 2017
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/15935
Resumo: Há dois tipos de bases de dados que podem ser utilizadas por algoritmos de classificação: monorrótulo e multirrótulo. Em bases de dados monorrótulo cada exemplo está associado a um único rótulo, enquanto que em bases de dados multirrótulo cada exemplo pode estar associado a mais de um rótulo simultaneamente. A ausência de valores em bases de dados multirrótulo é um problema comum e para tentar resolver isso existem os algoritmos de imputação. Algoritmos de imputação de valores faltantes em bases de dados multirrótulo fazem parte da etapa de pré-processamento dos dados para que algoritmos de classificação multirrótulo possam ser aplicados. O tratamento de dados incompletos é feito através da técnica de imputação, onde valores ausentes são substituídos por valores aproximados a partir de outros existentes na base de dados. Existem vários algoritmos que implementam formas de estimar valores. Neste contexto, o presente trabalho faz uma análise da aplicação de algoritmos de imputação de valores omissos em bases de dados multirrótulo para verificar a eficácia de cada um diante de diferentes bases de dados com valores incompletos. Foram testados os algoritmos Imputação pela Moda, Média, Mediana e KNN Iterativo, sendo este último o que obteve os melhores resultados.
id UTFPR-12_160dedb49f2137188603bcdcb2ca97e4
oai_identifier_str oai:repositorio.utfpr.edu.br:1/15935
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling 2020-11-19T18:23:14Z2020-11-19T18:23:14Z2017-05-25SCROBOTE, Adriana. Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo. 2017. 133 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2017.http://repositorio.utfpr.edu.br/jspui/handle/1/15935Há dois tipos de bases de dados que podem ser utilizadas por algoritmos de classificação: monorrótulo e multirrótulo. Em bases de dados monorrótulo cada exemplo está associado a um único rótulo, enquanto que em bases de dados multirrótulo cada exemplo pode estar associado a mais de um rótulo simultaneamente. A ausência de valores em bases de dados multirrótulo é um problema comum e para tentar resolver isso existem os algoritmos de imputação. Algoritmos de imputação de valores faltantes em bases de dados multirrótulo fazem parte da etapa de pré-processamento dos dados para que algoritmos de classificação multirrótulo possam ser aplicados. O tratamento de dados incompletos é feito através da técnica de imputação, onde valores ausentes são substituídos por valores aproximados a partir de outros existentes na base de dados. Existem vários algoritmos que implementam formas de estimar valores. Neste contexto, o presente trabalho faz uma análise da aplicação de algoritmos de imputação de valores omissos em bases de dados multirrótulo para verificar a eficácia de cada um diante de diferentes bases de dados com valores incompletos. Foram testados os algoritmos Imputação pela Moda, Média, Mediana e KNN Iterativo, sendo este último o que obteve os melhores resultados.There are two types of databases that can be used by classification algorithms, which are multi and mono-label databases. In mono-label databases each example is associated with a single label, while in multi-label databases each example may be associated with more than one label simultaneously. The absence of values is a common problem in databases and to solve this problem there are imputation algorithms. Missing values imputation algorithms in multi-label databases are part of the preprocessing data stage so that multi-label classification algorithms can be applied. The treatment of incomplete data is made by imputation, where missing values are substituted by approximate values from other existing values in database. There are several algorithms that implement various ways to estimate values. In this context, the present study is an analysis of the aplication of missing values imputation algorithms in multi-label databases to check the efficiency of each on different databases with incomplete values. The algorithms Imputation by Mode, Mean, Median and Iterative KNN were tested, where the last one got the best results.porUniversidade Tecnológica Federal do ParanáPonta GrossaCiência da ComputaçãoUTFPRBrasilDepartamento Acadêmico de InformáticaCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOBanco de dadosAlgorítmos computacionaisComputaçãoData basesComputer algorithmsComputer scienceUma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótuloAn analysis of the application of missing values imputation algorithms in multi-label databasesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisPonta GrossaForonda, AugustoForonda, AugustoRanthum, GeraldoAlmeida, Simone deScrobote, Adrianainfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRLICENSElicense.txttext/plain1290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15935/1/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD51ORIGINALPG_COCIC_2017_1_01.pdfapplication/pdf2271848http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15935/2/PG_COCIC_2017_1_01.pdf0b8a72392a12c0d9e7820d5f27a7e355MD52TEXTPG_COCIC_2017_1_01.pdf.txtExtracted texttext/plain206061http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15935/3/PG_COCIC_2017_1_01.pdf.txtd6841a11033e3400a2df073a8a0d5296MD53THUMBNAILPG_COCIC_2017_1_01.pdf.jpgGenerated Thumbnailimage/jpeg1373http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15935/4/PG_COCIC_2017_1_01.pdf.jpg6560371d3468ba683e18ca7ad8a72569MD541/159352020-11-19 16:23:14.959oai:repositorio.utfpr.edu.br:1/15935TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2020-11-19T18:23:14Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo
dc.title.alternative.pt_BR.fl_str_mv An analysis of the application of missing values imputation algorithms in multi-label databases
title Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo
spellingShingle Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo
Scrobote, Adriana
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Banco de dados
Algorítmos computacionais
Computação
Data bases
Computer algorithms
Computer science
title_short Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo
title_full Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo
title_fullStr Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo
title_full_unstemmed Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo
title_sort Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo
author Scrobote, Adriana
author_facet Scrobote, Adriana
author_role author
dc.contributor.advisor1.fl_str_mv Foronda, Augusto
dc.contributor.referee1.fl_str_mv Foronda, Augusto
dc.contributor.referee2.fl_str_mv Ranthum, Geraldo
dc.contributor.referee3.fl_str_mv Almeida, Simone de
dc.contributor.author.fl_str_mv Scrobote, Adriana
contributor_str_mv Foronda, Augusto
Foronda, Augusto
Ranthum, Geraldo
Almeida, Simone de
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Banco de dados
Algorítmos computacionais
Computação
Data bases
Computer algorithms
Computer science
dc.subject.por.fl_str_mv Banco de dados
Algorítmos computacionais
Computação
Data bases
Computer algorithms
Computer science
description Há dois tipos de bases de dados que podem ser utilizadas por algoritmos de classificação: monorrótulo e multirrótulo. Em bases de dados monorrótulo cada exemplo está associado a um único rótulo, enquanto que em bases de dados multirrótulo cada exemplo pode estar associado a mais de um rótulo simultaneamente. A ausência de valores em bases de dados multirrótulo é um problema comum e para tentar resolver isso existem os algoritmos de imputação. Algoritmos de imputação de valores faltantes em bases de dados multirrótulo fazem parte da etapa de pré-processamento dos dados para que algoritmos de classificação multirrótulo possam ser aplicados. O tratamento de dados incompletos é feito através da técnica de imputação, onde valores ausentes são substituídos por valores aproximados a partir de outros existentes na base de dados. Existem vários algoritmos que implementam formas de estimar valores. Neste contexto, o presente trabalho faz uma análise da aplicação de algoritmos de imputação de valores omissos em bases de dados multirrótulo para verificar a eficácia de cada um diante de diferentes bases de dados com valores incompletos. Foram testados os algoritmos Imputação pela Moda, Média, Mediana e KNN Iterativo, sendo este último o que obteve os melhores resultados.
publishDate 2017
dc.date.issued.fl_str_mv 2017-05-25
dc.date.accessioned.fl_str_mv 2020-11-19T18:23:14Z
dc.date.available.fl_str_mv 2020-11-19T18:23:14Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SCROBOTE, Adriana. Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo. 2017. 133 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2017.
dc.identifier.uri.fl_str_mv http://repositorio.utfpr.edu.br/jspui/handle/1/15935
identifier_str_mv SCROBOTE, Adriana. Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo. 2017. 133 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2017.
url http://repositorio.utfpr.edu.br/jspui/handle/1/15935
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Ponta Grossa
dc.publisher.program.fl_str_mv Ciência da Computação
dc.publisher.initials.fl_str_mv UTFPR
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Departamento Acadêmico de Informática
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Ponta Grossa
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15935/1/license.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15935/2/PG_COCIC_2017_1_01.pdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15935/3/PG_COCIC_2017_1_01.pdf.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15935/4/PG_COCIC_2017_1_01.pdf.jpg
bitstream.checksum.fl_str_mv b9d82215ab23456fa2d8b49c5df1b95b
0b8a72392a12c0d9e7820d5f27a7e355
d6841a11033e3400a2df073a8a0d5296
6560371d3468ba683e18ca7ad8a72569
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_ 1805923220907360256