Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte

Detalhes bibliográficos
Autor(a) principal: Santos, Diego Soares dos
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFRN
Texto Completo: https://repositorio.ufrn.br/jspui/handle/123456789/27508
Resumo: O volume de dados armazenados e acessados diariamente vem crescendo em escala geométrica. Todos os dias são gerados cerca de 2,5 bilhões de gigabytes. Além disso, 90% dos dados no mundo foram produzidos nos últimos dois anos. Muitos termos têm sido utilizados para descrever esse volume gigante de dados armazenados de forma estruturada ou não. Big Data é um desses termos. Para muitos pesquisadores, Big Data é o fenômeno em que os dados são produzidos em vários formatos e armazenados por uma grande quantidade de dispositivos e equipamentos. Muito também tem sido feito para oferecer ferramentas e frameworks de código aberto que possam lidar ou oferecer funcionalidades capazes de manipular e minerar esse enorme volume de dados. Contudo, como a natureza dos dados é bastante diversa, escolher ou desenvolver ferramentas para lidar com esses dados se torna um problema nada trivial. Além disso, poucas ferramentas conseguem extrair conhecimento dos dados. Isso torna a tarefa de manipulação de dados difícil, principalmente devido às características muito específicas, tais como a descrição de um produto, que é totalmente flexível e sem validação. Por essa razão, em certos domínios de problema, é necessário aplicar técnicas de mineração de dados em atributos textuais para extrair valores padronizados. O objetivo principal deste trabalho é propor uma plataforma distribuída de mineração de dados para a Secretaria de Tributação do Rio Grande do Norte, que possa extrair conhecimento de maneira variada, considerando as características específicas das notas fiscais eletrônicas (NFC-e’s).
id UFRN_0c909f5aa75e16794824da02793cf5e8
oai_identifier_str oai:https://repositorio.ufrn.br:123456789/27508
network_acronym_str UFRN
network_name_str Repositório Institucional da UFRN
repository_id_str
spelling Santos, Diego Soares dosCampos, André Mauricio CunhaMadeira, Charles Andrye GalvãoSignoretti, AlbertoXavier Júnior, João Carlos2019-08-13T00:26:18Z2019-08-13T00:26:18Z2018-12-07SANTOS, Diego Soares dos. Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte. 2018. 70f. Dissertação (Mestrado Profissional em Engenharia de Software) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2018.https://repositorio.ufrn.br/jspui/handle/123456789/27508O volume de dados armazenados e acessados diariamente vem crescendo em escala geométrica. Todos os dias são gerados cerca de 2,5 bilhões de gigabytes. Além disso, 90% dos dados no mundo foram produzidos nos últimos dois anos. Muitos termos têm sido utilizados para descrever esse volume gigante de dados armazenados de forma estruturada ou não. Big Data é um desses termos. Para muitos pesquisadores, Big Data é o fenômeno em que os dados são produzidos em vários formatos e armazenados por uma grande quantidade de dispositivos e equipamentos. Muito também tem sido feito para oferecer ferramentas e frameworks de código aberto que possam lidar ou oferecer funcionalidades capazes de manipular e minerar esse enorme volume de dados. Contudo, como a natureza dos dados é bastante diversa, escolher ou desenvolver ferramentas para lidar com esses dados se torna um problema nada trivial. Além disso, poucas ferramentas conseguem extrair conhecimento dos dados. Isso torna a tarefa de manipulação de dados difícil, principalmente devido às características muito específicas, tais como a descrição de um produto, que é totalmente flexível e sem validação. Por essa razão, em certos domínios de problema, é necessário aplicar técnicas de mineração de dados em atributos textuais para extrair valores padronizados. O objetivo principal deste trabalho é propor uma plataforma distribuída de mineração de dados para a Secretaria de Tributação do Rio Grande do Norte, que possa extrair conhecimento de maneira variada, considerando as características específicas das notas fiscais eletrônicas (NFC-e’s).The volume of data stored and accessed daily is growing on a geometric scale. About 2.5 billion gigabytes are generated every day. In addition, 90 % of the world’s data has been produced in the last two years. Many terms have been used to describe this giant volume of stored data in a structured or non-structured way. Big Data is one of these terms. For many researchers, Big Data is the phenomenon where data is produced in various formats and stored by a large number of devices and equipment. Some efforts have been done to offer open source tools and frameworks that can handle or provide capabilities that can deal with and mine this huge amount of data. However, as the nature of the data is quite diverse, choosing or developing tools to deal with such data becomes a non-trivial problem. In addition, few tools are able to extract knowledge from the data. In this sense, knowledge extraction becomes more difficult due to specific characteristics of the data, such as: the description of a product which is totally flexible and without validation. For this reason, in certain problem domains, it is necessary to apply data mining techniques in text attributes to extract standardized values. The main objective of this paper is to propose a distributed data mining platform for the Tax Administration of Rio Grande do Norte, which can extract knowledge in a varied way, considering the specific characteristics of electronic invoices (NFC-e’s).CNPQ::ENGENHARIASMineração de textoAprendizado de máquinaBig DataUma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do NorteA distributed data mining platform for big data: a case study applied to the tax office of Rio Grande do Norteinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE SOFTWAREUFRNBrasilinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNORIGINALPlataformadistribuídamineração_Santos_2018.pdfapplication/pdf1200630https://repositorio.ufrn.br/bitstream/123456789/27508/1/Plataformadistribu%c3%addaminera%c3%a7%c3%a3o_Santos_2018.pdfaf8a6b38568da2650bce5837485c0706MD51TEXTPlataformadistribuídamineração_Santos_2018.pdf.txtPlataformadistribuídamineração_Santos_2018.pdf.txtExtracted texttext/plain140682https://repositorio.ufrn.br/bitstream/123456789/27508/2/Plataformadistribu%c3%addaminera%c3%a7%c3%a3o_Santos_2018.pdf.txtd12e41e307dacbc75912ec32db05fb68MD52THUMBNAILPlataformadistribuídamineração_Santos_2018.pdf.jpgPlataformadistribuídamineração_Santos_2018.pdf.jpgGenerated Thumbnailimage/jpeg1246https://repositorio.ufrn.br/bitstream/123456789/27508/3/Plataformadistribu%c3%addaminera%c3%a7%c3%a3o_Santos_2018.pdf.jpg8793bc9dcbb99f45762ffe10a314255eMD53123456789/275082019-08-18 02:24:47.866oai:https://repositorio.ufrn.br:123456789/27508Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2019-08-18T05:24:47Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.pt_BR.fl_str_mv Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte
dc.title.alternative.pt_BR.fl_str_mv A distributed data mining platform for big data: a case study applied to the tax office of Rio Grande do Norte
title Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte
spellingShingle Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte
Santos, Diego Soares dos
CNPQ::ENGENHARIAS
Mineração de texto
Aprendizado de máquina
Big Data
title_short Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte
title_full Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte
title_fullStr Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte
title_full_unstemmed Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte
title_sort Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte
author Santos, Diego Soares dos
author_facet Santos, Diego Soares dos
author_role author
dc.contributor.authorID.pt_BR.fl_str_mv
dc.contributor.advisorID.pt_BR.fl_str_mv
dc.contributor.advisor-co1ID.pt_BR.fl_str_mv
dc.contributor.referees1.none.fl_str_mv Madeira, Charles Andrye Galvão
dc.contributor.referees1ID.pt_BR.fl_str_mv
dc.contributor.referees2.none.fl_str_mv Signoretti, Alberto
dc.contributor.referees2ID.pt_BR.fl_str_mv
dc.contributor.author.fl_str_mv Santos, Diego Soares dos
dc.contributor.advisor-co1.fl_str_mv Campos, André Mauricio Cunha
dc.contributor.advisor1.fl_str_mv Xavier Júnior, João Carlos
contributor_str_mv Campos, André Mauricio Cunha
Xavier Júnior, João Carlos
dc.subject.cnpq.fl_str_mv CNPQ::ENGENHARIAS
topic CNPQ::ENGENHARIAS
Mineração de texto
Aprendizado de máquina
Big Data
dc.subject.por.fl_str_mv Mineração de texto
Aprendizado de máquina
Big Data
description O volume de dados armazenados e acessados diariamente vem crescendo em escala geométrica. Todos os dias são gerados cerca de 2,5 bilhões de gigabytes. Além disso, 90% dos dados no mundo foram produzidos nos últimos dois anos. Muitos termos têm sido utilizados para descrever esse volume gigante de dados armazenados de forma estruturada ou não. Big Data é um desses termos. Para muitos pesquisadores, Big Data é o fenômeno em que os dados são produzidos em vários formatos e armazenados por uma grande quantidade de dispositivos e equipamentos. Muito também tem sido feito para oferecer ferramentas e frameworks de código aberto que possam lidar ou oferecer funcionalidades capazes de manipular e minerar esse enorme volume de dados. Contudo, como a natureza dos dados é bastante diversa, escolher ou desenvolver ferramentas para lidar com esses dados se torna um problema nada trivial. Além disso, poucas ferramentas conseguem extrair conhecimento dos dados. Isso torna a tarefa de manipulação de dados difícil, principalmente devido às características muito específicas, tais como a descrição de um produto, que é totalmente flexível e sem validação. Por essa razão, em certos domínios de problema, é necessário aplicar técnicas de mineração de dados em atributos textuais para extrair valores padronizados. O objetivo principal deste trabalho é propor uma plataforma distribuída de mineração de dados para a Secretaria de Tributação do Rio Grande do Norte, que possa extrair conhecimento de maneira variada, considerando as características específicas das notas fiscais eletrônicas (NFC-e’s).
publishDate 2018
dc.date.issued.fl_str_mv 2018-12-07
dc.date.accessioned.fl_str_mv 2019-08-13T00:26:18Z
dc.date.available.fl_str_mv 2019-08-13T00:26:18Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SANTOS, Diego Soares dos. Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte. 2018. 70f. Dissertação (Mestrado Profissional em Engenharia de Software) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2018.
dc.identifier.uri.fl_str_mv https://repositorio.ufrn.br/jspui/handle/123456789/27508
identifier_str_mv SANTOS, Diego Soares dos. Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte. 2018. 70f. Dissertação (Mestrado Profissional em Engenharia de Software) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2018.
url https://repositorio.ufrn.br/jspui/handle/123456789/27508
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.program.fl_str_mv PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE SOFTWARE
dc.publisher.initials.fl_str_mv UFRN
dc.publisher.country.fl_str_mv Brasil
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRN
instname:Universidade Federal do Rio Grande do Norte (UFRN)
instacron:UFRN
instname_str Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str UFRN
institution UFRN
reponame_str Repositório Institucional da UFRN
collection Repositório Institucional da UFRN
bitstream.url.fl_str_mv https://repositorio.ufrn.br/bitstream/123456789/27508/1/Plataformadistribu%c3%addaminera%c3%a7%c3%a3o_Santos_2018.pdf
https://repositorio.ufrn.br/bitstream/123456789/27508/2/Plataformadistribu%c3%addaminera%c3%a7%c3%a3o_Santos_2018.pdf.txt
https://repositorio.ufrn.br/bitstream/123456789/27508/3/Plataformadistribu%c3%addaminera%c3%a7%c3%a3o_Santos_2018.pdf.jpg
bitstream.checksum.fl_str_mv af8a6b38568da2650bce5837485c0706
d12e41e307dacbc75912ec32db05fb68
8793bc9dcbb99f45762ffe10a314255e
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv
_version_ 1814832704025264128