Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRN |
Texto Completo: | https://repositorio.ufrn.br/handle/123456789/34297 |
Resumo: | Em diversos levantamentos por amostragem, é comum a presença de dados faltantes, que é um problema também denominado de não-resposta. Este problema ocorre devido a possíveis falhas na obtenção de uma parte das informações que deveriam ser coletadas na amostra. Ignorar a não-resposta, analisando-se apenas os dados observados, é uma forma simples de abordar o problema, mas que pode produzir tendenciosidades nos resultados do levantamento. Uma das técnicas para tratamento da não-resposta é a imputação, isto é, a substituição dos dados faltantes por valores escolhidos apropriadamente, visando eliminar ou reduzir as tendenciosidades devido à não-resposta. A partir da imputação, o conjunto de dados é completado para que estimativas válidas dos parâmetros populacionais e das respectivas variâncias possam ser obtidas mais facilmente. Contudo, a validade destas estimativas precisa ser avaliada cuidadosamente, pois em alguns casos a imputação, por si própria, pode também estar sujeita a tendenciosidades de estimação. Neste trabalho, é usado um estudo de simulação de Monte Carlo para avaliar empiricamente propriedades estatísticas de estimadores da média de uma população finita sob mecanismos de não-resposta com dados faltantes completamente aleatórios e com dados faltantes aleatórios. Os estimadores da média populacional usados no estudo correspondem à média dos dados observados entre os respondentes da amostra e à média dos dados após imputação hot-deck, que é um método popular de imputação em Amostragem. O estudo compara também estimadores das variâncias dos métodos baseados nos dados dos respondentes, no tratamento os dados imputados como ser fossem verdadeiros, na aplicação do Jackknife usual, na aplicação do Jackknife de Rao e Shao, na Imputação múltipla e no Bootstrap Bayesiano Aproximado. Os resultados do estudo demonstram, para cada um dos mecanismos de não-resposta, que métodos estimam apropriadamente o parâmetro populacional de interesse e as respectivas variâncias. |
id |
UFRN_f1a85a85c8ad2d77bf5338768289525d |
---|---|
oai_identifier_str |
oai:https://repositorio.ufrn.br:123456789/34297 |
network_acronym_str |
UFRN |
network_name_str |
Repositório Institucional da UFRN |
repository_id_str |
|
spelling |
Apolinário, Carla de MoraesBarbosa, Denize AraújoPinho, André Luís Santos deSilva, Damião Nóbrega da2021-05-06T01:25:35Z2021-09-20T12:08:49Z2021-05-06T01:25:35Z2021-09-20T12:08:49Z2019-12-122016032232APOLINÁRIO, Carla de Moraes. Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica. 2019. TCC (Graduação) - Curso de Estatística, Departamento de Estatística, Universidade Federal do Rio Grande do Norte, Natal, 2021.https://repositorio.ufrn.br/handle/123456789/34297Em diversos levantamentos por amostragem, é comum a presença de dados faltantes, que é um problema também denominado de não-resposta. Este problema ocorre devido a possíveis falhas na obtenção de uma parte das informações que deveriam ser coletadas na amostra. Ignorar a não-resposta, analisando-se apenas os dados observados, é uma forma simples de abordar o problema, mas que pode produzir tendenciosidades nos resultados do levantamento. Uma das técnicas para tratamento da não-resposta é a imputação, isto é, a substituição dos dados faltantes por valores escolhidos apropriadamente, visando eliminar ou reduzir as tendenciosidades devido à não-resposta. A partir da imputação, o conjunto de dados é completado para que estimativas válidas dos parâmetros populacionais e das respectivas variâncias possam ser obtidas mais facilmente. Contudo, a validade destas estimativas precisa ser avaliada cuidadosamente, pois em alguns casos a imputação, por si própria, pode também estar sujeita a tendenciosidades de estimação. Neste trabalho, é usado um estudo de simulação de Monte Carlo para avaliar empiricamente propriedades estatísticas de estimadores da média de uma população finita sob mecanismos de não-resposta com dados faltantes completamente aleatórios e com dados faltantes aleatórios. Os estimadores da média populacional usados no estudo correspondem à média dos dados observados entre os respondentes da amostra e à média dos dados após imputação hot-deck, que é um método popular de imputação em Amostragem. O estudo compara também estimadores das variâncias dos métodos baseados nos dados dos respondentes, no tratamento os dados imputados como ser fossem verdadeiros, na aplicação do Jackknife usual, na aplicação do Jackknife de Rao e Shao, na Imputação múltipla e no Bootstrap Bayesiano Aproximado. Os resultados do estudo demonstram, para cada um dos mecanismos de não-resposta, que métodos estimam apropriadamente o parâmetro populacional de interesse e as respectivas variâncias.In many sample surveys, it is common the presence of missing data, a problem also known as non-response. This problem occurs due to possible failures in obtaining some of the information that should be collected in the sample. Ignoring non-response, by analyzing the observed data only, is a simple way to approach the problem, but it could produce bias in the survey results. One of the techniques for treating non-response is by imputation, that is by replacing the missing data with appropriately chosen values, seeking to eliminate or reduce the non-response bias. Using imputation, the data set is completed so that valid estimates of population parameters and their variances could be obtained more easily. However, the validity of such estimates needs to be carefully evaluated, as imputation may also be subject to estimation bias. In this work, a Monte Carlo simulation study is used to evaluate empirically statistical properties of estimators of a finite population mean under a missing completely at random and missing-at-random response mechanisms. The population mean estimators used in the study correspond to the average of the data observed among the sample respondents and the average of the data after hot-deck imputation, which is a popular imputation method. The study also compares variances estimators of methods based only on the respondent data, treating of imputed data as true values, application of the usual Jackknife, application of the Rao and Shao Jackknife, Multiple Imputation, and the Approximate Bayesian Bootstrap. The results of the study demonstrate, for each non-response mechanism, which methods estimate appropriately the population parameter of interest and the respective variances.Universidade Federal do Rio Grande do NorteUFRNBrasilEstatísticaAmostragem estatísticaAnálise de dados incompletosBootstrap Bayesiano aproximadoDados faltantesImputação MúltiplaJackknifeMétodo de Rao e ShaoNão-respostaEstimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empíricaEstimation of variance in sample surveys with data imputed by the Hot-Deck method: An empirical comparisoninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNinfo:eu-repo/semantics/openAccessORIGINALEstimaçãoDeVariância_Apolinário_2019.pdfMonografiaapplication/pdf725895https://repositorio.ufrn.br/bitstream/123456789/34297/1/Estima%c3%a7%c3%a3oDeVari%c3%a2ncia_Apolin%c3%a1rio_2019.pdf837cfb6dfbc0c8eb66cf38e79efaababMD51LICENSElicense.txttext/plain714https://repositorio.ufrn.br/bitstream/123456789/34297/2/license.txt7278bab9c5c886812fa7d225dc807888MD52123456789/342972021-09-27 15:44:56.299oai:https://repositorio.ufrn.br:123456789/34297PGNlbnRlcj48c3Ryb25nPkZFREVSQUwgVU5JVkVSU0lUWSBPRiBSSU8gR1JBTkRFIERPIE5PUlRFPC9zdHJvbmc+PC9jZW50ZXI+CjxjZW50ZXI+PHN0cm9uZz5ESUdJVEFMIE1PTk9HUkFQSFMgTElCUkFSWTwvc3Ryb25nPjwvY2VudGVyPgoKPGNlbnRlcj5BdXRob3JpemF0aW9uIFRlcm0gZm9yIHRoZSBhdmFpbGFiaWxpdHkgb2YgTW9ub2dyYXBocyBmb3IgVW5kZXJncmFkdWF0ZSBhbmQgU3BlY2lhbGl6YXRpb24gaW4gdGhlIERpZ2l0YWwgTGlicmFyeSBvZiBNb25vZ3JhcGhzIChCRE0pPC9jZW50ZXI+CgpBcyB0aGUgY29weXJpZ2h0IG93bmVyIG9mIHRoZSBtb25vZ3JhcGgsIEkgYXV0aG9yaXplIHRoZSBGZWRlcmFsIFVuaXZlcnNpdHkgb2YgUmlvIEdyYW5kZSBkbyBOb3J0ZSAoVUZSTikgdG8gbWFrZSBhdmFpbGFibGUgdGhyb3VnaCB0aGUgRGlnaXRhbCBMaWJyYXJ5IG9mIE1vbm9ncmFwaHMgb2YgVUZSTiwgd2l0aG91dCByZWltYnVyc2VtZW50IG9mIGNvcHlyaWdodCwgYWNjb3JkaW5nIHRvIExhdyA5NjEwLzk4ICwgdGhlIGZ1bGwgdGV4dCBvZiB0aGUgd29yayBzdWJtaXR0ZWQgZm9yIHRoZSBwdXJwb3NlIG9mIHJlYWRpbmcsIHByaW50aW5nIGFuZCAvIG9yIGRvd25sb2FkaW5nLCBhcyBhIG1lYW5zIG9mIGRpc3NlbWluYXRpbmcgQnJhemlsaWFuIHNjaWVudGlmaWMgcHJvZHVjdGlvbiwgYXMgb2YgdGhlIGRhdGUgb2Ygc3VibWlzc2lvbi4KRepositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2021-09-27T18:44:56Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false |
dc.title.pt_BR.fl_str_mv |
Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica |
dc.title.alternative.pt_BR.fl_str_mv |
Estimation of variance in sample surveys with data imputed by the Hot-Deck method: An empirical comparison |
title |
Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica |
spellingShingle |
Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica Apolinário, Carla de Moraes Amostragem estatística Análise de dados incompletos Bootstrap Bayesiano aproximado Dados faltantes Imputação Múltipla Jackknife Método de Rao e Shao Não-resposta |
title_short |
Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica |
title_full |
Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica |
title_fullStr |
Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica |
title_full_unstemmed |
Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica |
title_sort |
Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica |
author |
Apolinário, Carla de Moraes |
author_facet |
Apolinário, Carla de Moraes |
author_role |
author |
dc.contributor.referees1.none.fl_str_mv |
Barbosa, Denize Araújo |
dc.contributor.referees2.none.fl_str_mv |
Pinho, André Luís Santos de |
dc.contributor.author.fl_str_mv |
Apolinário, Carla de Moraes |
dc.contributor.advisor1.fl_str_mv |
Silva, Damião Nóbrega da |
contributor_str_mv |
Silva, Damião Nóbrega da |
dc.subject.cnpq.fl_str_mv |
Amostragem estatística |
topic |
Amostragem estatística Análise de dados incompletos Bootstrap Bayesiano aproximado Dados faltantes Imputação Múltipla Jackknife Método de Rao e Shao Não-resposta |
dc.subject.por.fl_str_mv |
Análise de dados incompletos Bootstrap Bayesiano aproximado Dados faltantes Imputação Múltipla Jackknife Método de Rao e Shao Não-resposta |
description |
Em diversos levantamentos por amostragem, é comum a presença de dados faltantes, que é um problema também denominado de não-resposta. Este problema ocorre devido a possíveis falhas na obtenção de uma parte das informações que deveriam ser coletadas na amostra. Ignorar a não-resposta, analisando-se apenas os dados observados, é uma forma simples de abordar o problema, mas que pode produzir tendenciosidades nos resultados do levantamento. Uma das técnicas para tratamento da não-resposta é a imputação, isto é, a substituição dos dados faltantes por valores escolhidos apropriadamente, visando eliminar ou reduzir as tendenciosidades devido à não-resposta. A partir da imputação, o conjunto de dados é completado para que estimativas válidas dos parâmetros populacionais e das respectivas variâncias possam ser obtidas mais facilmente. Contudo, a validade destas estimativas precisa ser avaliada cuidadosamente, pois em alguns casos a imputação, por si própria, pode também estar sujeita a tendenciosidades de estimação. Neste trabalho, é usado um estudo de simulação de Monte Carlo para avaliar empiricamente propriedades estatísticas de estimadores da média de uma população finita sob mecanismos de não-resposta com dados faltantes completamente aleatórios e com dados faltantes aleatórios. Os estimadores da média populacional usados no estudo correspondem à média dos dados observados entre os respondentes da amostra e à média dos dados após imputação hot-deck, que é um método popular de imputação em Amostragem. O estudo compara também estimadores das variâncias dos métodos baseados nos dados dos respondentes, no tratamento os dados imputados como ser fossem verdadeiros, na aplicação do Jackknife usual, na aplicação do Jackknife de Rao e Shao, na Imputação múltipla e no Bootstrap Bayesiano Aproximado. Os resultados do estudo demonstram, para cada um dos mecanismos de não-resposta, que métodos estimam apropriadamente o parâmetro populacional de interesse e as respectivas variâncias. |
publishDate |
2019 |
dc.date.issued.fl_str_mv |
2019-12-12 |
dc.date.accessioned.fl_str_mv |
2021-05-06T01:25:35Z 2021-09-20T12:08:49Z |
dc.date.available.fl_str_mv |
2021-05-06T01:25:35Z 2021-09-20T12:08:49Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.pt_BR.fl_str_mv |
2016032232 |
dc.identifier.citation.fl_str_mv |
APOLINÁRIO, Carla de Moraes. Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica. 2019. TCC (Graduação) - Curso de Estatística, Departamento de Estatística, Universidade Federal do Rio Grande do Norte, Natal, 2021. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufrn.br/handle/123456789/34297 |
identifier_str_mv |
2016032232 APOLINÁRIO, Carla de Moraes. Estimação de variância em pesquisas por amostragem com dados imputados pelo método Hot-Deck: Uma comparação empírica. 2019. TCC (Graduação) - Curso de Estatística, Departamento de Estatística, Universidade Federal do Rio Grande do Norte, Natal, 2021. |
url |
https://repositorio.ufrn.br/handle/123456789/34297 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.publisher.initials.fl_str_mv |
UFRN |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Estatística |
publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN |
instname_str |
Universidade Federal do Rio Grande do Norte (UFRN) |
instacron_str |
UFRN |
institution |
UFRN |
reponame_str |
Repositório Institucional da UFRN |
collection |
Repositório Institucional da UFRN |
bitstream.url.fl_str_mv |
https://repositorio.ufrn.br/bitstream/123456789/34297/1/Estima%c3%a7%c3%a3oDeVari%c3%a2ncia_Apolin%c3%a1rio_2019.pdf https://repositorio.ufrn.br/bitstream/123456789/34297/2/license.txt |
bitstream.checksum.fl_str_mv |
837cfb6dfbc0c8eb66cf38e79efaabab 7278bab9c5c886812fa7d225dc807888 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN) |
repository.mail.fl_str_mv |
|
_version_ |
1802117842845302784 |