Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros
Autor(a) principal: | |
---|---|
Data de Publicação: | 2002 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Revista brasileira de epidemiologia (Online) |
Texto Completo: | http://old.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2002000200006 |
Resumo: | A blocagem (blocking), que consiste na criação de blocos lógicos de registros dentro de arquivos a serem relacionados, é um dos processos que faz parte do relacionamento probabilístico de grandes bases de dados. Os objetivos deste trabalho são comparar a eficiência de diferentes esquemas de blocagem e estudar a eficiência da utilização de uma rotina de padronização desenvolvida pelos autores, que aplica a mesma grafia para as primeiras sílabas de nomes com o mesmo som. Procedemos ao relacionamento de uma base de dados de mortalidade com 59.065 óbitos com uma base de óbitos hospitalares com 531 registros, que apresentavam um registro correspondente na base de mortalidade. Diferentes estratégias de blocagem foram comparadas em relação ao custo para o processamento e a proporção de pares verdadeiros perdidos. A estratégia de blocagem em múltiplos passos foi mais eficiente, permitindo a identificação de todos os pares verdadeiros com a formação de um número total de pares que foi inferior ao obtido em duas rotinas diferentes de passo único. Já entre as estratégias de passo único avaliadas, a que se baseou no emprego da chave formada pela combinação do código soundex do primeiro nome e sexo apresentou o melhor resultado. A utilização da rotina de padronização que aplica a mesma grafia para as primeiras sílabas de nomes com o mesmo som não apresentou um impacto importante, quer em custos, quer na redução da perda de pares verdadeiros. |
id |
ABRASCO-1_47dbb1a9cab98e6b3303b312209763e1 |
---|---|
oai_identifier_str |
oai:scielo:S1415-790X2002000200006 |
network_acronym_str |
ABRASCO-1 |
network_name_str |
Revista brasileira de epidemiologia (Online) |
repository_id_str |
|
spelling |
Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registrosBanco de dadosRelacionamento probabilístico de registrosBlocagemEpidemiologiaA blocagem (blocking), que consiste na criação de blocos lógicos de registros dentro de arquivos a serem relacionados, é um dos processos que faz parte do relacionamento probabilístico de grandes bases de dados. Os objetivos deste trabalho são comparar a eficiência de diferentes esquemas de blocagem e estudar a eficiência da utilização de uma rotina de padronização desenvolvida pelos autores, que aplica a mesma grafia para as primeiras sílabas de nomes com o mesmo som. Procedemos ao relacionamento de uma base de dados de mortalidade com 59.065 óbitos com uma base de óbitos hospitalares com 531 registros, que apresentavam um registro correspondente na base de mortalidade. Diferentes estratégias de blocagem foram comparadas em relação ao custo para o processamento e a proporção de pares verdadeiros perdidos. A estratégia de blocagem em múltiplos passos foi mais eficiente, permitindo a identificação de todos os pares verdadeiros com a formação de um número total de pares que foi inferior ao obtido em duas rotinas diferentes de passo único. Já entre as estratégias de passo único avaliadas, a que se baseou no emprego da chave formada pela combinação do código soundex do primeiro nome e sexo apresentou o melhor resultado. A utilização da rotina de padronização que aplica a mesma grafia para as primeiras sílabas de nomes com o mesmo som não apresentou um impacto importante, quer em custos, quer na redução da perda de pares verdadeiros.Associação Brasileira de Saúde Coletiva2002-08-01info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersiontext/htmlhttp://old.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2002000200006Revista Brasileira de Epidemiologia v.5 n.2 2002reponame:Revista brasileira de epidemiologia (Online)instname:Associação Brasileira de Saúde Coletiva (ABRASCO)instacron:ABRASCO10.1590/S1415-790X2002000200006info:eu-repo/semantics/openAccessCoeli,Cláudia MedinaCamargo Jr.,Kenneth Rochel depor2005-11-30T00:00:00Zoai:scielo:S1415-790X2002000200006Revistahttp://www.scielo.br/rbepidhttps://old.scielo.br/oai/scielo-oai.php||revbrepi@usp.br1980-54971415-790Xopendoar:2005-11-30T00:00Revista brasileira de epidemiologia (Online) - Associação Brasileira de Saúde Coletiva (ABRASCO)false |
dc.title.none.fl_str_mv |
Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros |
title |
Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros |
spellingShingle |
Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros Coeli,Cláudia Medina Banco de dados Relacionamento probabilístico de registros Blocagem Epidemiologia |
title_short |
Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros |
title_full |
Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros |
title_fullStr |
Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros |
title_full_unstemmed |
Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros |
title_sort |
Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros |
author |
Coeli,Cláudia Medina |
author_facet |
Coeli,Cláudia Medina Camargo Jr.,Kenneth Rochel de |
author_role |
author |
author2 |
Camargo Jr.,Kenneth Rochel de |
author2_role |
author |
dc.contributor.author.fl_str_mv |
Coeli,Cláudia Medina Camargo Jr.,Kenneth Rochel de |
dc.subject.por.fl_str_mv |
Banco de dados Relacionamento probabilístico de registros Blocagem Epidemiologia |
topic |
Banco de dados Relacionamento probabilístico de registros Blocagem Epidemiologia |
description |
A blocagem (blocking), que consiste na criação de blocos lógicos de registros dentro de arquivos a serem relacionados, é um dos processos que faz parte do relacionamento probabilístico de grandes bases de dados. Os objetivos deste trabalho são comparar a eficiência de diferentes esquemas de blocagem e estudar a eficiência da utilização de uma rotina de padronização desenvolvida pelos autores, que aplica a mesma grafia para as primeiras sílabas de nomes com o mesmo som. Procedemos ao relacionamento de uma base de dados de mortalidade com 59.065 óbitos com uma base de óbitos hospitalares com 531 registros, que apresentavam um registro correspondente na base de mortalidade. Diferentes estratégias de blocagem foram comparadas em relação ao custo para o processamento e a proporção de pares verdadeiros perdidos. A estratégia de blocagem em múltiplos passos foi mais eficiente, permitindo a identificação de todos os pares verdadeiros com a formação de um número total de pares que foi inferior ao obtido em duas rotinas diferentes de passo único. Já entre as estratégias de passo único avaliadas, a que se baseou no emprego da chave formada pela combinação do código soundex do primeiro nome e sexo apresentou o melhor resultado. A utilização da rotina de padronização que aplica a mesma grafia para as primeiras sílabas de nomes com o mesmo som não apresentou um impacto importante, quer em custos, quer na redução da perda de pares verdadeiros. |
publishDate |
2002 |
dc.date.none.fl_str_mv |
2002-08-01 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://old.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2002000200006 |
url |
http://old.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2002000200006 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
10.1590/S1415-790X2002000200006 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
text/html |
dc.publisher.none.fl_str_mv |
Associação Brasileira de Saúde Coletiva |
publisher.none.fl_str_mv |
Associação Brasileira de Saúde Coletiva |
dc.source.none.fl_str_mv |
Revista Brasileira de Epidemiologia v.5 n.2 2002 reponame:Revista brasileira de epidemiologia (Online) instname:Associação Brasileira de Saúde Coletiva (ABRASCO) instacron:ABRASCO |
instname_str |
Associação Brasileira de Saúde Coletiva (ABRASCO) |
instacron_str |
ABRASCO |
institution |
ABRASCO |
reponame_str |
Revista brasileira de epidemiologia (Online) |
collection |
Revista brasileira de epidemiologia (Online) |
repository.name.fl_str_mv |
Revista brasileira de epidemiologia (Online) - Associação Brasileira de Saúde Coletiva (ABRASCO) |
repository.mail.fl_str_mv |
||revbrepi@usp.br |
_version_ |
1754212950253502464 |