Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica

Detalhes bibliográficos
Autor(a) principal: Apolinário, Carla de Moraes
Data de Publicação: 2019
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRN
Texto Completo: https://repositorio.ufrn.br/handle/123456789/34297
Resumo: Em diversos levantamentos por amostragem, é comum a presença de dados faltantes, que é um problema também denominado de não-resposta. Este problema ocorre devido a possíveis falhas na obtenção de uma parte das informações que deveriam ser coletadas na amostra. Ignorar a não-resposta, analisando-se apenas os dados observados, é uma forma simples de abordar o problema, mas que pode produzir tendenciosidades nos resultados do levantamento. Uma das técnicas para tratamento da não-resposta é a imputação, isto é, a substituição dos dados faltantes por valores escolhidos apropriadamente, visando eliminar ou reduzir as tendenciosidades devido à não-resposta. A partir da imputação, o conjunto de dados é completado para que estimativas válidas dos parâmetros populacionais e das respectivas variâncias possam ser obtidas mais facilmente. Contudo, a validade destas estimativas precisa ser avaliada cuidadosamente, pois em alguns casos a imputação, por si própria, pode também estar sujeita a tendenciosidades de estimação. Neste trabalho, é usado um estudo de simulação de Monte Carlo para avaliar empiricamente propriedades estatísticas de estimadores da média de uma população finita sob mecanismos de não-resposta com dados faltantes completamente aleatórios e com dados faltantes aleatórios. Os estimadores da média populacional usados no estudo correspondem à média dos dados observados entre os respondentes da amostra e à média dos dados após imputação hot-deck, que é um método popular de imputação em Amostragem. O estudo compara também estimadores das variâncias dos métodos baseados nos dados dos respondentes, no tratamento os dados imputados como ser fossem verdadeiros, na aplicação do Jackknife usual, na aplicação do Jackknife de Rao e Shao, na Imputação múltipla e no Bootstrap Bayesiano Aproximado. Os resultados do estudo demonstram, para cada um dos mecanismos de não-resposta, que métodos estimam apropriadamente o parâmetro populacional de interesse e as respectivas variâncias.
id UFRN_f1a85a85c8ad2d77bf5338768289525d
oai_identifier_str oai:https://repositorio.ufrn.br:123456789/34297
network_acronym_str UFRN
network_name_str Repositório Institucional da UFRN
repository_id_str
spelling Apolinário, Carla de MoraesBarbosa, Denize AraújoPinho, André Luís Santos deSilva, Damião Nóbrega da2021-05-06T01:25:35Z2021-09-20T12:08:49Z2021-05-06T01:25:35Z2021-09-20T12:08:49Z2019-12-122016032232APOLINÁRIO, Carla de Moraes. Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica. 2019. TCC (Graduação) - Curso de Estatística, Departamento de Estatística, Universidade Federal do Rio Grande do Norte, Natal, 2021.https://repositorio.ufrn.br/handle/123456789/34297Em diversos levantamentos por amostragem, é comum a presença de dados faltantes, que é um problema também denominado de não-resposta. Este problema ocorre devido a possíveis falhas na obtenção de uma parte das informações que deveriam ser coletadas na amostra. Ignorar a não-resposta, analisando-se apenas os dados observados, é uma forma simples de abordar o problema, mas que pode produzir tendenciosidades nos resultados do levantamento. Uma das técnicas para tratamento da não-resposta é a imputação, isto é, a substituição dos dados faltantes por valores escolhidos apropriadamente, visando eliminar ou reduzir as tendenciosidades devido à não-resposta. A partir da imputação, o conjunto de dados é completado para que estimativas válidas dos parâmetros populacionais e das respectivas variâncias possam ser obtidas mais facilmente. Contudo, a validade destas estimativas precisa ser avaliada cuidadosamente, pois em alguns casos a imputação, por si própria, pode também estar sujeita a tendenciosidades de estimação. Neste trabalho, é usado um estudo de simulação de Monte Carlo para avaliar empiricamente propriedades estatísticas de estimadores da média de uma população finita sob mecanismos de não-resposta com dados faltantes completamente aleatórios e com dados faltantes aleatórios. Os estimadores da média populacional usados no estudo correspondem à média dos dados observados entre os respondentes da amostra e à média dos dados após imputação hot-deck, que é um método popular de imputação em Amostragem. O estudo compara também estimadores das variâncias dos métodos baseados nos dados dos respondentes, no tratamento os dados imputados como ser fossem verdadeiros, na aplicação do Jackknife usual, na aplicação do Jackknife de Rao e Shao, na Imputação múltipla e no Bootstrap Bayesiano Aproximado. Os resultados do estudo demonstram, para cada um dos mecanismos de não-resposta, que métodos estimam apropriadamente o parâmetro populacional de interesse e as respectivas variâncias.In many sample surveys, it is common the presence of missing data, a problem also known as non-response. This problem occurs due to possible failures in obtaining some of the information that should be collected in the sample. Ignoring non-response, by analyzing the observed data only, is a simple way to approach the problem, but it could produce bias in the survey results. One of the techniques for treating non-response is by imputation, that is by replacing the missing data with appropriately chosen values, seeking to eliminate or reduce the non-response bias. Using imputation, the data set is completed so that valid estimates of population parameters and their variances could be obtained more easily. However, the validity of such estimates needs to be carefully evaluated, as imputation may also be subject to estimation bias. In this work, a Monte Carlo simulation study is used to evaluate empirically statistical properties of estimators of a finite population mean under a missing completely at random and missing-at-random response mechanisms. The population mean estimators used in the study correspond to the average of the data observed among the sample respondents and the average of the data after hot-deck imputation, which is a popular imputation method. The study also compares variances estimators of methods based only on the respondent data, treating of imputed data as true values, application of the usual Jackknife, application of the Rao and Shao Jackknife, Multiple Imputation, and the Approximate Bayesian Bootstrap. The results of the study demonstrate, for each non-response mechanism, which methods estimate appropriately the population parameter of interest and the respective variances.Universidade Federal do Rio Grande do NorteUFRNBrasilEstatísticaAmostragem estatísticaAnálise de dados incompletosBootstrap Bayesiano aproximadoDados faltantesImputação MúltiplaJackknifeMétodo de Rao e ShaoNão-respostaEstimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empíricaEstimation of variance in sample surveys with data imputed by the Hot-Deck method: An empirical comparisoninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNinfo:eu-repo/semantics/openAccessORIGINALEstimaçãoDeVariância_Apolinário_2019.pdfMonografiaapplication/pdf725895https://repositorio.ufrn.br/bitstream/123456789/34297/1/Estima%c3%a7%c3%a3oDeVari%c3%a2ncia_Apolin%c3%a1rio_2019.pdf837cfb6dfbc0c8eb66cf38e79efaababMD51LICENSElicense.txttext/plain714https://repositorio.ufrn.br/bitstream/123456789/34297/2/license.txt7278bab9c5c886812fa7d225dc807888MD52123456789/342972021-09-27 15:44:56.299oai:https://repositorio.ufrn.br:123456789/34297PGNlbnRlcj48c3Ryb25nPkZFREVSQUwgVU5JVkVSU0lUWSBPRiBSSU8gR1JBTkRFIERPIE5PUlRFPC9zdHJvbmc+PC9jZW50ZXI+CjxjZW50ZXI+PHN0cm9uZz5ESUdJVEFMIE1PTk9HUkFQSFMgTElCUkFSWTwvc3Ryb25nPjwvY2VudGVyPgoKPGNlbnRlcj5BdXRob3JpemF0aW9uIFRlcm0gZm9yIHRoZSBhdmFpbGFiaWxpdHkgb2YgTW9ub2dyYXBocyBmb3IgVW5kZXJncmFkdWF0ZSBhbmQgU3BlY2lhbGl6YXRpb24gaW4gdGhlIERpZ2l0YWwgTGlicmFyeSBvZiBNb25vZ3JhcGhzIChCRE0pPC9jZW50ZXI+CgpBcyB0aGUgY29weXJpZ2h0IG93bmVyIG9mIHRoZSBtb25vZ3JhcGgsIEkgYXV0aG9yaXplIHRoZSBGZWRlcmFsIFVuaXZlcnNpdHkgb2YgUmlvIEdyYW5kZSBkbyBOb3J0ZSAoVUZSTikgdG8gbWFrZSBhdmFpbGFibGUgdGhyb3VnaCB0aGUgRGlnaXRhbCBMaWJyYXJ5IG9mIE1vbm9ncmFwaHMgb2YgVUZSTiwgd2l0aG91dCByZWltYnVyc2VtZW50IG9mIGNvcHlyaWdodCwgYWNjb3JkaW5nIHRvIExhdyA5NjEwLzk4ICwgdGhlIGZ1bGwgdGV4dCBvZiB0aGUgd29yayBzdWJtaXR0ZWQgZm9yIHRoZSBwdXJwb3NlIG9mIHJlYWRpbmcsIHByaW50aW5nIGFuZCAvIG9yIGRvd25sb2FkaW5nLCBhcyBhIG1lYW5zIG9mIGRpc3NlbWluYXRpbmcgQnJhemlsaWFuIHNjaWVudGlmaWMgcHJvZHVjdGlvbiwgYXMgb2YgdGhlIGRhdGUgb2Ygc3VibWlzc2lvbi4KRepositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2021-09-27T18:44:56Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.pt_BR.fl_str_mv Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica
dc.title.alternative.pt_BR.fl_str_mv Estimation of variance in sample surveys with data imputed by the Hot-Deck method: An empirical comparison
title Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica
spellingShingle Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica
Apolinário, Carla de Moraes
Amostragem estatística
Análise de dados incompletos
Bootstrap Bayesiano aproximado
Dados faltantes
Imputação Múltipla
Jackknife
Método de Rao e Shao
Não-resposta
title_short Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica
title_full Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica
title_fullStr Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica
title_full_unstemmed Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica
title_sort Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica
author Apolinário, Carla de Moraes
author_facet Apolinário, Carla de Moraes
author_role author
dc.contributor.referees1.none.fl_str_mv Barbosa, Denize Araújo
dc.contributor.referees2.none.fl_str_mv Pinho, André Luís Santos de
dc.contributor.author.fl_str_mv Apolinário, Carla de Moraes
dc.contributor.advisor1.fl_str_mv Silva, Damião Nóbrega da
contributor_str_mv Silva, Damião Nóbrega da
dc.subject.cnpq.fl_str_mv Amostragem estatística
topic Amostragem estatística
Análise de dados incompletos
Bootstrap Bayesiano aproximado
Dados faltantes
Imputação Múltipla
Jackknife
Método de Rao e Shao
Não-resposta
dc.subject.por.fl_str_mv Análise de dados incompletos
Bootstrap Bayesiano aproximado
Dados faltantes
Imputação Múltipla
Jackknife
Método de Rao e Shao
Não-resposta
description Em diversos levantamentos por amostragem, é comum a presença de dados faltantes, que é um problema também denominado de não-resposta. Este problema ocorre devido a possíveis falhas na obtenção de uma parte das informações que deveriam ser coletadas na amostra. Ignorar a não-resposta, analisando-se apenas os dados observados, é uma forma simples de abordar o problema, mas que pode produzir tendenciosidades nos resultados do levantamento. Uma das técnicas para tratamento da não-resposta é a imputação, isto é, a substituição dos dados faltantes por valores escolhidos apropriadamente, visando eliminar ou reduzir as tendenciosidades devido à não-resposta. A partir da imputação, o conjunto de dados é completado para que estimativas válidas dos parâmetros populacionais e das respectivas variâncias possam ser obtidas mais facilmente. Contudo, a validade destas estimativas precisa ser avaliada cuidadosamente, pois em alguns casos a imputação, por si própria, pode também estar sujeita a tendenciosidades de estimação. Neste trabalho, é usado um estudo de simulação de Monte Carlo para avaliar empiricamente propriedades estatísticas de estimadores da média de uma população finita sob mecanismos de não-resposta com dados faltantes completamente aleatórios e com dados faltantes aleatórios. Os estimadores da média populacional usados no estudo correspondem à média dos dados observados entre os respondentes da amostra e à média dos dados após imputação hot-deck, que é um método popular de imputação em Amostragem. O estudo compara também estimadores das variâncias dos métodos baseados nos dados dos respondentes, no tratamento os dados imputados como ser fossem verdadeiros, na aplicação do Jackknife usual, na aplicação do Jackknife de Rao e Shao, na Imputação múltipla e no Bootstrap Bayesiano Aproximado. Os resultados do estudo demonstram, para cada um dos mecanismos de não-resposta, que métodos estimam apropriadamente o parâmetro populacional de interesse e as respectivas variâncias.
publishDate 2019
dc.date.issued.fl_str_mv 2019-12-12
dc.date.accessioned.fl_str_mv 2021-05-06T01:25:35Z
2021-09-20T12:08:49Z
dc.date.available.fl_str_mv 2021-05-06T01:25:35Z
2021-09-20T12:08:49Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.pt_BR.fl_str_mv 2016032232
dc.identifier.citation.fl_str_mv APOLINÁRIO, Carla de Moraes. Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica. 2019. TCC (Graduação) - Curso de Estatística, Departamento de Estatística, Universidade Federal do Rio Grande do Norte, Natal, 2021.
dc.identifier.uri.fl_str_mv https://repositorio.ufrn.br/handle/123456789/34297
identifier_str_mv 2016032232
APOLINÁRIO, Carla de Moraes. Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica. 2019. TCC (Graduação) - Curso de Estatística, Departamento de Estatística, Universidade Federal do Rio Grande do Norte, Natal, 2021.
url https://repositorio.ufrn.br/handle/123456789/34297
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.publisher.initials.fl_str_mv UFRN
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Estatística
publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRN
instname:Universidade Federal do Rio Grande do Norte (UFRN)
instacron:UFRN
instname_str Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str UFRN
institution UFRN
reponame_str Repositório Institucional da UFRN
collection Repositório Institucional da UFRN
bitstream.url.fl_str_mv https://repositorio.ufrn.br/bitstream/123456789/34297/1/Estima%c3%a7%c3%a3oDeVari%c3%a2ncia_Apolin%c3%a1rio_2019.pdf
https://repositorio.ufrn.br/bitstream/123456789/34297/2/license.txt
bitstream.checksum.fl_str_mv 837cfb6dfbc0c8eb66cf38e79efaabab
7278bab9c5c886812fa7d225dc807888
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv
_version_ 1802117842845302784