Avaliação da eficiência de planos amostrais em big data de registros administrativos

Detalhes bibliográficos
Autor(a) principal: Fernandes, Filipe Oliveira
Data de Publicação: 2018
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFJF
Texto Completo: https://repositorio.ufjf.br/jspui/handle/ufjf/12234
Resumo: As novas tecnologias do século XXI propiciaram um grande aumento na produção de dados, o que ocasionou no fenômeno conhecido como Big Data. Surgem bancos de dados cada vez mais complexos e difíceis de serem analisados, que requerem uma nova infraestrutura e capacidade maior de processamento computacional. Uma solução para esse problema seria o uso de técnicas de amostragem probabilística. A proposta deste estudo foi a realização de um estudo de simulação considerando diferentes desenhos amostrais através do software R e com o auxílio de um servidor. Planos amostrais simples e complexos foram comparados quanto ao erro padrão e nível de cobertura, na finalidade de obter estimativas com as melhores propriedades a partir de tamanhos de amostra reduzidos, a fim de possibilitar a análise dos dados também ao usuário de um desktop. Nesse estudo foram considerados dados do CadUnico (Cadastro Único para Programas Sociais do Governo), que possui mais de 20 milhões de registros e distingue-se como a plataforma de acesso ao Bolsa Família. A Amostragem Aleatória Simples destacou-se como o método mais rápido e também o mais preciso inclusive nos menores tamanhos de amostra.
id UFJF_3efac2a1b4e00086489d990ced1038d6
oai_identifier_str oai:hermes.cpd.ufjf.br:ufjf/12234
network_acronym_str UFJF
network_name_str Repositório Institucional da UFJF
repository_id_str
spelling Vieira, Marcel de Toledohttp://lattes.cnpq.br/1980385021266418Vieira, Marcel de Toledohttp://lattes.cnpq.br/1980385021266418Souza, Augusto Carvalhohttp://lattes.cnpq.br/4948010017164625Freguglia, Ricardo da Silvahttp://lattes.cnpq.br/1290479848909932http://lattes.cnpq.br/2546732169146022Fernandes, Filipe Oliveira2021-01-20T21:53:24Z2021-01-012021-01-20T21:53:24Z2018-12-03https://repositorio.ufjf.br/jspui/handle/ufjf/12234As novas tecnologias do século XXI propiciaram um grande aumento na produção de dados, o que ocasionou no fenômeno conhecido como Big Data. Surgem bancos de dados cada vez mais complexos e difíceis de serem analisados, que requerem uma nova infraestrutura e capacidade maior de processamento computacional. Uma solução para esse problema seria o uso de técnicas de amostragem probabilística. A proposta deste estudo foi a realização de um estudo de simulação considerando diferentes desenhos amostrais através do software R e com o auxílio de um servidor. Planos amostrais simples e complexos foram comparados quanto ao erro padrão e nível de cobertura, na finalidade de obter estimativas com as melhores propriedades a partir de tamanhos de amostra reduzidos, a fim de possibilitar a análise dos dados também ao usuário de um desktop. Nesse estudo foram considerados dados do CadUnico (Cadastro Único para Programas Sociais do Governo), que possui mais de 20 milhões de registros e distingue-se como a plataforma de acesso ao Bolsa Família. A Amostragem Aleatória Simples destacou-se como o método mais rápido e também o mais preciso inclusive nos menores tamanhos de amostra.New technologies of the XXI century provided a great increase in the production of data, which caused the phenomenon known as Big Data. Increasingly complex and difficult- to-analyse databases are emerging that require new infrastructure and increased computational processing power. A solution to this problem would be the use of probabilistic sampling techniques. The purpose of this study was to carry out a simulation study considering different sample designs through the software R and with the assistance of a server. Simple and complex sample designs were compared based on the standard error and coverage level in order to obtain estimates with the best properties from reduced sample sizes in order to allow data analysis also to the user of a desktop. In this study, data from the CadÚnico (Single Register for Social Programs of the Government), which has more than 20 million records and is distinguished as the platform for access to Bolsa Família, were considered. Simple Random Sampling has stood out as the fastest and most accurate method even in the smallest sample sizes.porUniversidade Federal de Juiz de Fora (UFJF)UFJFBrasilICE – Instituto de Ciências Exatashttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICAamostragemCadÚnicobig dataSamplingCadÚnicoBig DataAvaliação da eficiência de planos amostrais em big data de registros administrativosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisreponame:Repositório Institucional da UFJFinstname:Universidade Federal de Juiz de Fora (UFJF)instacron:UFJFCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufjf.br/jspui/bitstream/ufjf/12234/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52ORIGINALfilipeoliveirafernandes.pdffilipeoliveirafernandes.pdfFilipe Oliveira Fernandesapplication/pdf1628175https://repositorio.ufjf.br/jspui/bitstream/ufjf/12234/4/filipeoliveirafernandes.pdffe52c7d6a1e09e81d33d0fdf398fefd5MD54LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.ufjf.br/jspui/bitstream/ufjf/12234/5/license.txt8a4605be74aa9ea9d79846c1fba20a33MD55TEXTfilipeoliveirafernandes.pdf.txtfilipeoliveirafernandes.pdf.txtExtracted texttext/plain65791https://repositorio.ufjf.br/jspui/bitstream/ufjf/12234/6/filipeoliveirafernandes.pdf.txt54d94d5192b09869061a628e933e2ee4MD56THUMBNAILfilipeoliveirafernandes.pdf.jpgfilipeoliveirafernandes.pdf.jpgGenerated Thumbnailimage/jpeg1145https://repositorio.ufjf.br/jspui/bitstream/ufjf/12234/7/filipeoliveirafernandes.pdf.jpg7392052a87e122983198fdbf2a3aff8aMD57ufjf/122342021-01-21 04:07:49.835oai:hermes.cpd.ufjf.br:ufjf/12234Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.ufjf.br/oai/requestopendoar:2021-01-21T06:07:49Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)false
dc.title.pt_BR.fl_str_mv Avaliação da eficiência de planos amostrais em big data de registros administrativos
title Avaliação da eficiência de planos amostrais em big data de registros administrativos
spellingShingle Avaliação da eficiência de planos amostrais em big data de registros administrativos
Fernandes, Filipe Oliveira
CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
amostragem
CadÚnico
big data
Sampling
CadÚnico
Big Data
title_short Avaliação da eficiência de planos amostrais em big data de registros administrativos
title_full Avaliação da eficiência de planos amostrais em big data de registros administrativos
title_fullStr Avaliação da eficiência de planos amostrais em big data de registros administrativos
title_full_unstemmed Avaliação da eficiência de planos amostrais em big data de registros administrativos
title_sort Avaliação da eficiência de planos amostrais em big data de registros administrativos
author Fernandes, Filipe Oliveira
author_facet Fernandes, Filipe Oliveira
author_role author
dc.contributor.advisor1.fl_str_mv Vieira, Marcel de Toledo
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/1980385021266418
dc.contributor.referee1.fl_str_mv Vieira, Marcel de Toledo
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/1980385021266418
dc.contributor.referee2.fl_str_mv Souza, Augusto Carvalho
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/4948010017164625
dc.contributor.referee3.fl_str_mv Freguglia, Ricardo da Silva
dc.contributor.referee3Lattes.fl_str_mv http://lattes.cnpq.br/1290479848909932
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/2546732169146022
dc.contributor.author.fl_str_mv Fernandes, Filipe Oliveira
contributor_str_mv Vieira, Marcel de Toledo
Vieira, Marcel de Toledo
Souza, Augusto Carvalho
Freguglia, Ricardo da Silva
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
topic CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
amostragem
CadÚnico
big data
Sampling
CadÚnico
Big Data
dc.subject.por.fl_str_mv amostragem
CadÚnico
big data
Sampling
CadÚnico
Big Data
description As novas tecnologias do século XXI propiciaram um grande aumento na produção de dados, o que ocasionou no fenômeno conhecido como Big Data. Surgem bancos de dados cada vez mais complexos e difíceis de serem analisados, que requerem uma nova infraestrutura e capacidade maior de processamento computacional. Uma solução para esse problema seria o uso de técnicas de amostragem probabilística. A proposta deste estudo foi a realização de um estudo de simulação considerando diferentes desenhos amostrais através do software R e com o auxílio de um servidor. Planos amostrais simples e complexos foram comparados quanto ao erro padrão e nível de cobertura, na finalidade de obter estimativas com as melhores propriedades a partir de tamanhos de amostra reduzidos, a fim de possibilitar a análise dos dados também ao usuário de um desktop. Nesse estudo foram considerados dados do CadUnico (Cadastro Único para Programas Sociais do Governo), que possui mais de 20 milhões de registros e distingue-se como a plataforma de acesso ao Bolsa Família. A Amostragem Aleatória Simples destacou-se como o método mais rápido e também o mais preciso inclusive nos menores tamanhos de amostra.
publishDate 2018
dc.date.issued.fl_str_mv 2018-12-03
dc.date.accessioned.fl_str_mv 2021-01-20T21:53:24Z
dc.date.available.fl_str_mv 2021-01-01
2021-01-20T21:53:24Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufjf.br/jspui/handle/ufjf/12234
url https://repositorio.ufjf.br/jspui/handle/ufjf/12234
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Juiz de Fora (UFJF)
dc.publisher.initials.fl_str_mv UFJF
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv ICE – Instituto de Ciências Exatas
publisher.none.fl_str_mv Universidade Federal de Juiz de Fora (UFJF)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFJF
instname:Universidade Federal de Juiz de Fora (UFJF)
instacron:UFJF
instname_str Universidade Federal de Juiz de Fora (UFJF)
instacron_str UFJF
institution UFJF
reponame_str Repositório Institucional da UFJF
collection Repositório Institucional da UFJF
bitstream.url.fl_str_mv https://repositorio.ufjf.br/jspui/bitstream/ufjf/12234/2/license_rdf
https://repositorio.ufjf.br/jspui/bitstream/ufjf/12234/4/filipeoliveirafernandes.pdf
https://repositorio.ufjf.br/jspui/bitstream/ufjf/12234/5/license.txt
https://repositorio.ufjf.br/jspui/bitstream/ufjf/12234/6/filipeoliveirafernandes.pdf.txt
https://repositorio.ufjf.br/jspui/bitstream/ufjf/12234/7/filipeoliveirafernandes.pdf.jpg
bitstream.checksum.fl_str_mv e39d27027a6cc9cb039ad269a5db8e34
fe52c7d6a1e09e81d33d0fdf398fefd5
8a4605be74aa9ea9d79846c1fba20a33
54d94d5192b09869061a628e933e2ee4
7392052a87e122983198fdbf2a3aff8a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)
repository.mail.fl_str_mv
_version_ 1798038703618129920