Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
Texto Completo: | http://repositorio.utfpr.edu.br/jspui/handle/1/15935 |
Resumo: | Há dois tipos de bases de dados que podem ser utilizadas por algoritmos de classificação: monorrótulo e multirrótulo. Em bases de dados monorrótulo cada exemplo está associado a um único rótulo, enquanto que em bases de dados multirrótulo cada exemplo pode estar associado a mais de um rótulo simultaneamente. A ausência de valores em bases de dados multirrótulo é um problema comum e para tentar resolver isso existem os algoritmos de imputação. Algoritmos de imputação de valores faltantes em bases de dados multirrótulo fazem parte da etapa de pré-processamento dos dados para que algoritmos de classificação multirrótulo possam ser aplicados. O tratamento de dados incompletos é feito através da técnica de imputação, onde valores ausentes são substituídos por valores aproximados a partir de outros existentes na base de dados. Existem vários algoritmos que implementam formas de estimar valores. Neste contexto, o presente trabalho faz uma análise da aplicação de algoritmos de imputação de valores omissos em bases de dados multirrótulo para verificar a eficácia de cada um diante de diferentes bases de dados com valores incompletos. Foram testados os algoritmos Imputação pela Moda, Média, Mediana e KNN Iterativo, sendo este último o que obteve os melhores resultados. |
id |
UTFPR-12_160dedb49f2137188603bcdcb2ca97e4 |
---|---|
oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/15935 |
network_acronym_str |
UTFPR-12 |
network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
repository_id_str |
|
spelling |
2020-11-19T18:23:14Z2020-11-19T18:23:14Z2017-05-25SCROBOTE, Adriana. Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo. 2017. 133 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2017.http://repositorio.utfpr.edu.br/jspui/handle/1/15935Há dois tipos de bases de dados que podem ser utilizadas por algoritmos de classificação: monorrótulo e multirrótulo. Em bases de dados monorrótulo cada exemplo está associado a um único rótulo, enquanto que em bases de dados multirrótulo cada exemplo pode estar associado a mais de um rótulo simultaneamente. A ausência de valores em bases de dados multirrótulo é um problema comum e para tentar resolver isso existem os algoritmos de imputação. Algoritmos de imputação de valores faltantes em bases de dados multirrótulo fazem parte da etapa de pré-processamento dos dados para que algoritmos de classificação multirrótulo possam ser aplicados. O tratamento de dados incompletos é feito através da técnica de imputação, onde valores ausentes são substituídos por valores aproximados a partir de outros existentes na base de dados. Existem vários algoritmos que implementam formas de estimar valores. Neste contexto, o presente trabalho faz uma análise da aplicação de algoritmos de imputação de valores omissos em bases de dados multirrótulo para verificar a eficácia de cada um diante de diferentes bases de dados com valores incompletos. Foram testados os algoritmos Imputação pela Moda, Média, Mediana e KNN Iterativo, sendo este último o que obteve os melhores resultados.There are two types of databases that can be used by classification algorithms, which are multi and mono-label databases. In mono-label databases each example is associated with a single label, while in multi-label databases each example may be associated with more than one label simultaneously. The absence of values is a common problem in databases and to solve this problem there are imputation algorithms. Missing values imputation algorithms in multi-label databases are part of the preprocessing data stage so that multi-label classification algorithms can be applied. The treatment of incomplete data is made by imputation, where missing values are substituted by approximate values from other existing values in database. There are several algorithms that implement various ways to estimate values. In this context, the present study is an analysis of the aplication of missing values imputation algorithms in multi-label databases to check the efficiency of each on different databases with incomplete values. The algorithms Imputation by Mode, Mean, Median and Iterative KNN were tested, where the last one got the best results.porUniversidade Tecnológica Federal do ParanáPonta GrossaCiência da ComputaçãoUTFPRBrasilDepartamento Acadêmico de InformáticaCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOBanco de dadosAlgorítmos computacionaisComputaçãoData basesComputer algorithmsComputer scienceUma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótuloAn analysis of the application of missing values imputation algorithms in multi-label databasesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisPonta GrossaForonda, AugustoForonda, AugustoRanthum, GeraldoAlmeida, Simone deScrobote, Adrianainfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRLICENSElicense.txttext/plain1290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15935/1/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD51ORIGINALPG_COCIC_2017_1_01.pdfapplication/pdf2271848http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15935/2/PG_COCIC_2017_1_01.pdf0b8a72392a12c0d9e7820d5f27a7e355MD52TEXTPG_COCIC_2017_1_01.pdf.txtExtracted texttext/plain206061http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15935/3/PG_COCIC_2017_1_01.pdf.txtd6841a11033e3400a2df073a8a0d5296MD53THUMBNAILPG_COCIC_2017_1_01.pdf.jpgGenerated Thumbnailimage/jpeg1373http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15935/4/PG_COCIC_2017_1_01.pdf.jpg6560371d3468ba683e18ca7ad8a72569MD541/159352020-11-19 16:23:14.959oai:repositorio.utfpr.edu.br:1/15935TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2020-11-19T18:23:14Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
dc.title.pt_BR.fl_str_mv |
Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo |
dc.title.alternative.pt_BR.fl_str_mv |
An analysis of the application of missing values imputation algorithms in multi-label databases |
title |
Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo |
spellingShingle |
Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo Scrobote, Adriana CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Banco de dados Algorítmos computacionais Computação Data bases Computer algorithms Computer science |
title_short |
Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo |
title_full |
Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo |
title_fullStr |
Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo |
title_full_unstemmed |
Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo |
title_sort |
Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo |
author |
Scrobote, Adriana |
author_facet |
Scrobote, Adriana |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Foronda, Augusto |
dc.contributor.referee1.fl_str_mv |
Foronda, Augusto |
dc.contributor.referee2.fl_str_mv |
Ranthum, Geraldo |
dc.contributor.referee3.fl_str_mv |
Almeida, Simone de |
dc.contributor.author.fl_str_mv |
Scrobote, Adriana |
contributor_str_mv |
Foronda, Augusto Foronda, Augusto Ranthum, Geraldo Almeida, Simone de |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
topic |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Banco de dados Algorítmos computacionais Computação Data bases Computer algorithms Computer science |
dc.subject.por.fl_str_mv |
Banco de dados Algorítmos computacionais Computação Data bases Computer algorithms Computer science |
description |
Há dois tipos de bases de dados que podem ser utilizadas por algoritmos de classificação: monorrótulo e multirrótulo. Em bases de dados monorrótulo cada exemplo está associado a um único rótulo, enquanto que em bases de dados multirrótulo cada exemplo pode estar associado a mais de um rótulo simultaneamente. A ausência de valores em bases de dados multirrótulo é um problema comum e para tentar resolver isso existem os algoritmos de imputação. Algoritmos de imputação de valores faltantes em bases de dados multirrótulo fazem parte da etapa de pré-processamento dos dados para que algoritmos de classificação multirrótulo possam ser aplicados. O tratamento de dados incompletos é feito através da técnica de imputação, onde valores ausentes são substituídos por valores aproximados a partir de outros existentes na base de dados. Existem vários algoritmos que implementam formas de estimar valores. Neste contexto, o presente trabalho faz uma análise da aplicação de algoritmos de imputação de valores omissos em bases de dados multirrótulo para verificar a eficácia de cada um diante de diferentes bases de dados com valores incompletos. Foram testados os algoritmos Imputação pela Moda, Média, Mediana e KNN Iterativo, sendo este último o que obteve os melhores resultados. |
publishDate |
2017 |
dc.date.issued.fl_str_mv |
2017-05-25 |
dc.date.accessioned.fl_str_mv |
2020-11-19T18:23:14Z |
dc.date.available.fl_str_mv |
2020-11-19T18:23:14Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
SCROBOTE, Adriana. Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo. 2017. 133 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2017. |
dc.identifier.uri.fl_str_mv |
http://repositorio.utfpr.edu.br/jspui/handle/1/15935 |
identifier_str_mv |
SCROBOTE, Adriana. Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo. 2017. 133 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2017. |
url |
http://repositorio.utfpr.edu.br/jspui/handle/1/15935 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Ponta Grossa |
dc.publisher.program.fl_str_mv |
Ciência da Computação |
dc.publisher.initials.fl_str_mv |
UTFPR |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Departamento Acadêmico de Informática |
publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Ponta Grossa |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
instacron_str |
UTFPR |
institution |
UTFPR |
reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
bitstream.url.fl_str_mv |
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15935/1/license.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15935/2/PG_COCIC_2017_1_01.pdf http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15935/3/PG_COCIC_2017_1_01.pdf.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15935/4/PG_COCIC_2017_1_01.pdf.jpg |
bitstream.checksum.fl_str_mv |
b9d82215ab23456fa2d8b49c5df1b95b 0b8a72392a12c0d9e7820d5f27a7e355 d6841a11033e3400a2df073a8a0d5296 6560371d3468ba683e18ca7ad8a72569 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
repository.mail.fl_str_mv |
|
_version_ |
1805923220907360256 |