Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textual
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UNESP |
Texto Completo: | http://hdl.handle.net/11449/216381 |
Resumo: | Data availability is growing in the real world. In order to be able to make inferences that help in decision making, data mining techniques such as the classification algorithms are used. Besides that, data quality is a relevant factor to consider, because it directly impacts results of the decision-making process, especially in the corporative environment. This work aimed to compare algorithms that prioritize data quality dimensions evaluation in the process of classifying textual content from scientific papers for a scientific communication platform. In order to do that, different validation techniques were used to measure the algorithms performance, as well as specific metrics to evaluate the quality dimensions under varied experimental conditions, aiming to evaluate data quality impact on the outcomes of a classification. |
id |
UNSP_7e8cc93d2c1db6d5933814f81782c3fd |
---|---|
oai_identifier_str |
oai:repositorio.unesp.br:11449/216381 |
network_acronym_str |
UNSP |
network_name_str |
Repositório Institucional da UNESP |
repository_id_str |
2946 |
spelling |
Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textualData quality as a requirement in the comparison of text classification algorithmsBig dataData qualityData miningClassification algorithmsCiência da computaçãoMineração de dados (Computação)Inteligência artificialData availability is growing in the real world. In order to be able to make inferences that help in decision making, data mining techniques such as the classification algorithms are used. Besides that, data quality is a relevant factor to consider, because it directly impacts results of the decision-making process, especially in the corporative environment. This work aimed to compare algorithms that prioritize data quality dimensions evaluation in the process of classifying textual content from scientific papers for a scientific communication platform. In order to do that, different validation techniques were used to measure the algorithms performance, as well as specific metrics to evaluate the quality dimensions under varied experimental conditions, aiming to evaluate data quality impact on the outcomes of a classification.A disponibilidade de dados é cada vez maior no mundo atual. Para a realização de inferências que auxiliem nas tomadas de decisão, técnicas de mineração de dados como os algoritmos de classificação são utilizadas. Além disso, a qualidade dos dados é um fator preponderante, pois influencia diretamente nos resultados que embasam o processo decisório, especialmente no ambiente corporativo. Este trabalho objetiva a comparação de algoritmos que priorizem a avaliação de dimensões de qualidade de dados no processo de classificação de conteúdo textual a partir de artigos científicos que compõem o portfólio de informações exibidas em uma plataforma de comunicação científica. Para isso, utilizaram-se diferentes técnicas de validação para aferir o desempenho dos algoritmos, bem como métricas específicas para avaliação das dimensões de qualidade sob diferentes condições experimentais, visando avaliar a influência da qualidade dos dados no processo de classificação.Não recebi financiamentoUniversidade Estadual Paulista (Unesp)Santos, Adriana Barbosa [UNESP]Cruz, Álvaro Magri Nogueira daUniversidade Estadual Paulista (Unesp)Rücker, Gabriel2022-02-07T19:57:14Z2022-02-07T19:57:14Z2022-01-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfhttp://hdl.handle.net/11449/216381porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-01-16T06:27:56Zoai:repositorio.unesp.br:11449/216381Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T23:08:07.119661Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false |
dc.title.none.fl_str_mv |
Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textual Data quality as a requirement in the comparison of text classification algorithms |
title |
Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textual |
spellingShingle |
Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textual Rücker, Gabriel Big data Data quality Data mining Classification algorithms Ciência da computação Mineração de dados (Computação) Inteligência artificial |
title_short |
Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textual |
title_full |
Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textual |
title_fullStr |
Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textual |
title_full_unstemmed |
Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textual |
title_sort |
Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textual |
author |
Rücker, Gabriel |
author_facet |
Rücker, Gabriel |
author_role |
author |
dc.contributor.none.fl_str_mv |
Santos, Adriana Barbosa [UNESP] Cruz, Álvaro Magri Nogueira da Universidade Estadual Paulista (Unesp) |
dc.contributor.author.fl_str_mv |
Rücker, Gabriel |
dc.subject.por.fl_str_mv |
Big data Data quality Data mining Classification algorithms Ciência da computação Mineração de dados (Computação) Inteligência artificial |
topic |
Big data Data quality Data mining Classification algorithms Ciência da computação Mineração de dados (Computação) Inteligência artificial |
description |
Data availability is growing in the real world. In order to be able to make inferences that help in decision making, data mining techniques such as the classification algorithms are used. Besides that, data quality is a relevant factor to consider, because it directly impacts results of the decision-making process, especially in the corporative environment. This work aimed to compare algorithms that prioritize data quality dimensions evaluation in the process of classifying textual content from scientific papers for a scientific communication platform. In order to do that, different validation techniques were used to measure the algorithms performance, as well as specific metrics to evaluate the quality dimensions under varied experimental conditions, aiming to evaluate data quality impact on the outcomes of a classification. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-02-07T19:57:14Z 2022-02-07T19:57:14Z 2022-01-04 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/11449/216381 |
url |
http://hdl.handle.net/11449/216381 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP |
instname_str |
Universidade Estadual Paulista (UNESP) |
instacron_str |
UNESP |
institution |
UNESP |
reponame_str |
Repositório Institucional da UNESP |
collection |
Repositório Institucional da UNESP |
repository.name.fl_str_mv |
Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP) |
repository.mail.fl_str_mv |
|
_version_ |
1808129493444853760 |