Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textual

Detalhes bibliográficos
Autor(a) principal: Rücker, Gabriel
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UNESP
Texto Completo: http://hdl.handle.net/11449/216381
Resumo: Data availability is growing in the real world. In order to be able to make inferences that help in decision making, data mining techniques such as the classification algorithms are used. Besides that, data quality is a relevant factor to consider, because it directly impacts results of the decision-making process, especially in the corporative environment. This work aimed to compare algorithms that prioritize data quality dimensions evaluation in the process of classifying textual content from scientific papers for a scientific communication platform. In order to do that, different validation techniques were used to measure the algorithms performance, as well as specific metrics to evaluate the quality dimensions under varied experimental conditions, aiming to evaluate data quality impact on the outcomes of a classification.
id UNSP_7e8cc93d2c1db6d5933814f81782c3fd
oai_identifier_str oai:repositorio.unesp.br:11449/216381
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str 2946
spelling Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textualData quality as a requirement in the comparison of text classification algorithmsBig dataData qualityData miningClassification algorithmsCiência da computaçãoMineração de dados (Computação)Inteligência artificialData availability is growing in the real world. In order to be able to make inferences that help in decision making, data mining techniques such as the classification algorithms are used. Besides that, data quality is a relevant factor to consider, because it directly impacts results of the decision-making process, especially in the corporative environment. This work aimed to compare algorithms that prioritize data quality dimensions evaluation in the process of classifying textual content from scientific papers for a scientific communication platform. In order to do that, different validation techniques were used to measure the algorithms performance, as well as specific metrics to evaluate the quality dimensions under varied experimental conditions, aiming to evaluate data quality impact on the outcomes of a classification.A disponibilidade de dados é cada vez maior no mundo atual. Para a realização de inferências que auxiliem nas tomadas de decisão, técnicas de mineração de dados como os algoritmos de classificação são utilizadas. Além disso, a qualidade dos dados é um fator preponderante, pois influencia diretamente nos resultados que embasam o processo decisório, especialmente no ambiente corporativo. Este trabalho objetiva a comparação de algoritmos que priorizem a avaliação de dimensões de qualidade de dados no processo de classificação de conteúdo textual a partir de artigos científicos que compõem o portfólio de informações exibidas em uma plataforma de comunicação científica. Para isso, utilizaram-se diferentes técnicas de validação para aferir o desempenho dos algoritmos, bem como métricas específicas para avaliação das dimensões de qualidade sob diferentes condições experimentais, visando avaliar a influência da qualidade dos dados no processo de classificação.Não recebi financiamentoUniversidade Estadual Paulista (Unesp)Santos, Adriana Barbosa [UNESP]Cruz, Álvaro Magri Nogueira daUniversidade Estadual Paulista (Unesp)Rücker, Gabriel2022-02-07T19:57:14Z2022-02-07T19:57:14Z2022-01-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfhttp://hdl.handle.net/11449/216381porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-01-16T06:27:56Zoai:repositorio.unesp.br:11449/216381Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T23:08:07.119661Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textual
Data quality as a requirement in the comparison of text classification algorithms
title Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textual
spellingShingle Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textual
Rücker, Gabriel
Big data
Data quality
Data mining
Classification algorithms
Ciência da computação
Mineração de dados (Computação)
Inteligência artificial
title_short Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textual
title_full Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textual
title_fullStr Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textual
title_full_unstemmed Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textual
title_sort Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textual
author Rücker, Gabriel
author_facet Rücker, Gabriel
author_role author
dc.contributor.none.fl_str_mv Santos, Adriana Barbosa [UNESP]
Cruz, Álvaro Magri Nogueira da
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Rücker, Gabriel
dc.subject.por.fl_str_mv Big data
Data quality
Data mining
Classification algorithms
Ciência da computação
Mineração de dados (Computação)
Inteligência artificial
topic Big data
Data quality
Data mining
Classification algorithms
Ciência da computação
Mineração de dados (Computação)
Inteligência artificial
description Data availability is growing in the real world. In order to be able to make inferences that help in decision making, data mining techniques such as the classification algorithms are used. Besides that, data quality is a relevant factor to consider, because it directly impacts results of the decision-making process, especially in the corporative environment. This work aimed to compare algorithms that prioritize data quality dimensions evaluation in the process of classifying textual content from scientific papers for a scientific communication platform. In order to do that, different validation techniques were used to measure the algorithms performance, as well as specific metrics to evaluate the quality dimensions under varied experimental conditions, aiming to evaluate data quality impact on the outcomes of a classification.
publishDate 2022
dc.date.none.fl_str_mv 2022-02-07T19:57:14Z
2022-02-07T19:57:14Z
2022-01-04
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11449/216381
url http://hdl.handle.net/11449/216381
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_ 1808129493444853760