Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros

Detalhes bibliográficos
Autor(a) principal: Coeli,Cláudia Medina
Data de Publicação: 2002
Outros Autores: Camargo Jr.,Kenneth Rochel de
Tipo de documento: Artigo
Idioma: por
Título da fonte: Revista brasileira de epidemiologia (Online)
Texto Completo: http://old.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2002000200006
Resumo: A blocagem (blocking), que consiste na criação de blocos lógicos de registros dentro de arquivos a serem relacionados, é um dos processos que faz parte do relacionamento probabilístico de grandes bases de dados. Os objetivos deste trabalho são comparar a eficiência de diferentes esquemas de blocagem e estudar a eficiência da utilização de uma rotina de padronização desenvolvida pelos autores, que aplica a mesma grafia para as primeiras sílabas de nomes com o mesmo som. Procedemos ao relacionamento de uma base de dados de mortalidade com 59.065 óbitos com uma base de óbitos hospitalares com 531 registros, que apresentavam um registro correspondente na base de mortalidade. Diferentes estratégias de blocagem foram comparadas em relação ao custo para o processamento e a proporção de pares verdadeiros perdidos. A estratégia de blocagem em múltiplos passos foi mais eficiente, permitindo a identificação de todos os pares verdadeiros com a formação de um número total de pares que foi inferior ao obtido em duas rotinas diferentes de passo único. Já entre as estratégias de passo único avaliadas, a que se baseou no emprego da chave formada pela combinação do código soundex do primeiro nome e sexo apresentou o melhor resultado. A utilização da rotina de padronização que aplica a mesma grafia para as primeiras sílabas de nomes com o mesmo som não apresentou um impacto importante, quer em custos, quer na redução da perda de pares verdadeiros.
id ABRASCO-1_47dbb1a9cab98e6b3303b312209763e1
oai_identifier_str oai:scielo:S1415-790X2002000200006
network_acronym_str ABRASCO-1
network_name_str Revista brasileira de epidemiologia (Online)
repository_id_str
spelling Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registrosBanco de dadosRelacionamento probabilístico de registrosBlocagemEpidemiologiaA blocagem (blocking), que consiste na criação de blocos lógicos de registros dentro de arquivos a serem relacionados, é um dos processos que faz parte do relacionamento probabilístico de grandes bases de dados. Os objetivos deste trabalho são comparar a eficiência de diferentes esquemas de blocagem e estudar a eficiência da utilização de uma rotina de padronização desenvolvida pelos autores, que aplica a mesma grafia para as primeiras sílabas de nomes com o mesmo som. Procedemos ao relacionamento de uma base de dados de mortalidade com 59.065 óbitos com uma base de óbitos hospitalares com 531 registros, que apresentavam um registro correspondente na base de mortalidade. Diferentes estratégias de blocagem foram comparadas em relação ao custo para o processamento e a proporção de pares verdadeiros perdidos. A estratégia de blocagem em múltiplos passos foi mais eficiente, permitindo a identificação de todos os pares verdadeiros com a formação de um número total de pares que foi inferior ao obtido em duas rotinas diferentes de passo único. Já entre as estratégias de passo único avaliadas, a que se baseou no emprego da chave formada pela combinação do código soundex do primeiro nome e sexo apresentou o melhor resultado. A utilização da rotina de padronização que aplica a mesma grafia para as primeiras sílabas de nomes com o mesmo som não apresentou um impacto importante, quer em custos, quer na redução da perda de pares verdadeiros.Associação Brasileira de Saúde Coletiva2002-08-01info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersiontext/htmlhttp://old.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2002000200006Revista Brasileira de Epidemiologia v.5 n.2 2002reponame:Revista brasileira de epidemiologia (Online)instname:Associação Brasileira de Saúde Coletiva (ABRASCO)instacron:ABRASCO10.1590/S1415-790X2002000200006info:eu-repo/semantics/openAccessCoeli,Cláudia MedinaCamargo Jr.,Kenneth Rochel depor2005-11-30T00:00:00Zoai:scielo:S1415-790X2002000200006Revistahttp://www.scielo.br/rbepidhttps://old.scielo.br/oai/scielo-oai.php||revbrepi@usp.br1980-54971415-790Xopendoar:2005-11-30T00:00Revista brasileira de epidemiologia (Online) - Associação Brasileira de Saúde Coletiva (ABRASCO)false
dc.title.none.fl_str_mv Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros
title Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros
spellingShingle Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros
Coeli,Cláudia Medina
Banco de dados
Relacionamento probabilístico de registros
Blocagem
Epidemiologia
title_short Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros
title_full Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros
title_fullStr Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros
title_full_unstemmed Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros
title_sort Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros
author Coeli,Cláudia Medina
author_facet Coeli,Cláudia Medina
Camargo Jr.,Kenneth Rochel de
author_role author
author2 Camargo Jr.,Kenneth Rochel de
author2_role author
dc.contributor.author.fl_str_mv Coeli,Cláudia Medina
Camargo Jr.,Kenneth Rochel de
dc.subject.por.fl_str_mv Banco de dados
Relacionamento probabilístico de registros
Blocagem
Epidemiologia
topic Banco de dados
Relacionamento probabilístico de registros
Blocagem
Epidemiologia
description A blocagem (blocking), que consiste na criação de blocos lógicos de registros dentro de arquivos a serem relacionados, é um dos processos que faz parte do relacionamento probabilístico de grandes bases de dados. Os objetivos deste trabalho são comparar a eficiência de diferentes esquemas de blocagem e estudar a eficiência da utilização de uma rotina de padronização desenvolvida pelos autores, que aplica a mesma grafia para as primeiras sílabas de nomes com o mesmo som. Procedemos ao relacionamento de uma base de dados de mortalidade com 59.065 óbitos com uma base de óbitos hospitalares com 531 registros, que apresentavam um registro correspondente na base de mortalidade. Diferentes estratégias de blocagem foram comparadas em relação ao custo para o processamento e a proporção de pares verdadeiros perdidos. A estratégia de blocagem em múltiplos passos foi mais eficiente, permitindo a identificação de todos os pares verdadeiros com a formação de um número total de pares que foi inferior ao obtido em duas rotinas diferentes de passo único. Já entre as estratégias de passo único avaliadas, a que se baseou no emprego da chave formada pela combinação do código soundex do primeiro nome e sexo apresentou o melhor resultado. A utilização da rotina de padronização que aplica a mesma grafia para as primeiras sílabas de nomes com o mesmo som não apresentou um impacto importante, quer em custos, quer na redução da perda de pares verdadeiros.
publishDate 2002
dc.date.none.fl_str_mv 2002-08-01
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://old.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2002000200006
url http://old.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2002000200006
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 10.1590/S1415-790X2002000200006
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv text/html
dc.publisher.none.fl_str_mv Associação Brasileira de Saúde Coletiva
publisher.none.fl_str_mv Associação Brasileira de Saúde Coletiva
dc.source.none.fl_str_mv Revista Brasileira de Epidemiologia v.5 n.2 2002
reponame:Revista brasileira de epidemiologia (Online)
instname:Associação Brasileira de Saúde Coletiva (ABRASCO)
instacron:ABRASCO
instname_str Associação Brasileira de Saúde Coletiva (ABRASCO)
instacron_str ABRASCO
institution ABRASCO
reponame_str Revista brasileira de epidemiologia (Online)
collection Revista brasileira de epidemiologia (Online)
repository.name.fl_str_mv Revista brasileira de epidemiologia (Online) - Associação Brasileira de Saúde Coletiva (ABRASCO)
repository.mail.fl_str_mv ||revbrepi@usp.br
_version_ 1754212950253502464