Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico

Detalhes bibliográficos
Autor(a) principal: Rafael Brustulin
Data de Publicação: 2018
Outros Autores: Poliana Guerino Marson
Tipo de documento: Artigo
Idioma: por
Título da fonte: Cadernos de Saúde Pública
Texto Completo: https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6609
Resumo: The aim of this study was to demonstrate the application of a deterministic post-processing stage, based on measures of similarity, to increase the performance of probabilistic record linkage with and without manual revision. The databases used in the study were the Brazilian Information System for Notificable Diseases and the Brazilian Mortality Information System, from 2007 to 2015, in Palmas, Tocantins State, Brazil. The probabilistic software was OpenRecLink, and a deterministic post-processing stage was applied to the data obtained from three different probabilistic linkage strategies. The three strategies were compared to each other, and the deterministic post-processing stage was added. The sensibility of the probabilistic strategies without manual revision varied from 69.1% and 77.8%, while the same strategies plus the deterministic post-processing stage varied from 92.9% to 96.3%. Sensitivity of the two probabilistic strategies with manual revision was similar to that obtained by the deterministic post-processing stage, but the number of matches that were referred to manual revision by the two probabilistic strategies varied between 1,177 and 1,132 records, compared to 149 and 145 after the deterministic post-processing stage. Our findings suggest that the deterministic post-processing stage is a promising option, both to increase the sensitivity and to reduce the number of matches that need to be reviewed manually, or even to eliminate the need for manual revision altogether.
id FIOCRUZ-5_dbc4232d9fc21377f51f2f77afc16fd7
oai_identifier_str oai:ojs.teste-cadernos.ensp.fiocruz.br:article/6609
network_acronym_str FIOCRUZ-5
network_name_str Cadernos de Saúde Pública
repository_id_str
spelling Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilísticoBase de DadosSoftwareProcessamento Automatizado de DadosSistemas de InformaçãoThe aim of this study was to demonstrate the application of a deterministic post-processing stage, based on measures of similarity, to increase the performance of probabilistic record linkage with and without manual revision. The databases used in the study were the Brazilian Information System for Notificable Diseases and the Brazilian Mortality Information System, from 2007 to 2015, in Palmas, Tocantins State, Brazil. The probabilistic software was OpenRecLink, and a deterministic post-processing stage was applied to the data obtained from three different probabilistic linkage strategies. The three strategies were compared to each other, and the deterministic post-processing stage was added. The sensibility of the probabilistic strategies without manual revision varied from 69.1% and 77.8%, while the same strategies plus the deterministic post-processing stage varied from 92.9% to 96.3%. Sensitivity of the two probabilistic strategies with manual revision was similar to that obtained by the deterministic post-processing stage, but the number of matches that were referred to manual revision by the two probabilistic strategies varied between 1,177 and 1,132 records, compared to 149 and 145 after the deterministic post-processing stage. Our findings suggest that the deterministic post-processing stage is a promising option, both to increase the sensitivity and to reduce the number of matches that need to be reviewed manually, or even to eliminate the need for manual revision altogether.El objetivo del presente estudio fue mostrar la aplicación de una etapa de postprocesamiento determinístico, basada en medidas de similitud, con el objeto de aumentar el rendimiento del enlace probabilístico con y sin etapa de revisión manual. Las bases de datos utilizadas en el estudio fueron el Sistema de Información sobre Enfermedades de Notificación Obligatoria y el Sistema de Informaciones sobre Mortalidad, durante el período de 2007 a 2015, en el municipio de Palmas, Tocantins, Brasil. El software probabilístico utilizado fue el OpenRecLink; se desarrolló y aplicó una etapa de postprocesamiento determinístico con los datos obtenidos mediante tres estrategias diferentes de emparejamiento probabilístico. Las tres estrategias se compararon entre sí y se añadieron a la etapa de postprocesamiento determinístico. La sensibilidad de las estrategias probabilísticas sin revisión manual varió entre el 69,1% y el 77,8%, incluso las mismas estrategias, añadidas de la etapa de postprocesamiento determinístico, presentaron una variación entre 92,9% y 96,3%. La sensibilidad de las dos estrategias probabilísticas con revisión manual fue semejante a la obtenida por la etapa de postprocesamiento determinístico, sin embargo, el número de pares destinados a la revisión manual por las dos estrategias probabilísticas varió entre 1.177 y 1.132 registros, frente 149 y 145 tras la etapa de postprocesamiento determinístico. Nuestros resultados sugieren que la etapa de postprocesamiento determinístico es una opción prometedora, tanto para aumentar la sensibilidad, como para reducir el número de pares que necesitan ser revisados manualmente, o incluso para eliminar su necesidad.O objetivo do presente estudo foi demonstrar a aplicação de uma etapa de pós-processamento determinístico, baseada em medidas de similaridade, para aumentar a performance do relacionamento probabilístico com e sem a etapa de revisão manual. As bases de dados utilizadas no estudo foram o Sistema de Informação de Agravos de Notificação e o Sistema de Informações sobre Mortalidade, no período de 2007 a 2015, do Município de Palmas, Tocantins, Brasil. O software probabilístico utilizado foi o OpenRecLink; foi desenvolvida e aplicada uma etapa de pós-processamento determinístico aos dados obtidos por três diferentes estratégias de pareamento probabilístico. As três estratégias foram comparadas entre si e acrescidas da etapa de pós-processamento determinístico. A sensibilidade das estratégias probabilísticas sem revisão manual variou entre 69,1% e 77,8%, já as mesmas estratégias, acrescidas da etapa de pós-processamento determinístico, apresentaram uma variação entre 92,9% e 96,3%. A sensibilidade de duas estratégias probabilísticas com revisão manual foi semelhante à obtida pela etapa de pós-processamento determinístico, no entanto, o número de pares destinados à revisão manual pelas duas estratégias probabilísticas variou entre 1.177 e 1.132 registros, contra 149 e 145 após a etapa de pós-processamento determinístico. Nossos resultados sugerem que a etapa de pós-processamento determinístico é uma opção promissora, tanto para aumentar a sensibilidade quanto para reduzir o número de pares que precisam ser revisados manualmente, ou mesmo para eliminar sua necessidade.Reports in Public HealthCadernos de Saúde Pública2018-06-21info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersiontext/htmlapplication/pdfhttps://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6609Reports in Public Health; Vol. 34 No. 6 (2018): JuneCadernos de Saúde Pública; v. 34 n. 6 (2018): Junho1678-44640102-311Xreponame:Cadernos de Saúde Públicainstname:Fundação Oswaldo Cruz (FIOCRUZ)instacron:FIOCRUZporhttps://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6609/14214https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6609/14215Rafael BrustulinPoliana Guerino Marsoninfo:eu-repo/semantics/openAccess2024-03-06T15:29:26Zoai:ojs.teste-cadernos.ensp.fiocruz.br:article/6609Revistahttps://cadernos.ensp.fiocruz.br/ojs/index.php/csphttps://cadernos.ensp.fiocruz.br/ojs/index.php/csp/oaicadernos@ensp.fiocruz.br||cadernos@ensp.fiocruz.br1678-44640102-311Xopendoar:2024-03-06T13:07:34.251868Cadernos de Saúde Pública - Fundação Oswaldo Cruz (FIOCRUZ)true
dc.title.none.fl_str_mv Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico
title Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico
spellingShingle Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico
Rafael Brustulin
Base de Dados
Software
Processamento Automatizado de Dados
Sistemas de Informação
title_short Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico
title_full Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico
title_fullStr Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico
title_full_unstemmed Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico
title_sort Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico
author Rafael Brustulin
author_facet Rafael Brustulin
Poliana Guerino Marson
author_role author
author2 Poliana Guerino Marson
author2_role author
dc.contributor.author.fl_str_mv Rafael Brustulin
Poliana Guerino Marson
dc.subject.por.fl_str_mv Base de Dados
Software
Processamento Automatizado de Dados
Sistemas de Informação
topic Base de Dados
Software
Processamento Automatizado de Dados
Sistemas de Informação
description The aim of this study was to demonstrate the application of a deterministic post-processing stage, based on measures of similarity, to increase the performance of probabilistic record linkage with and without manual revision. The databases used in the study were the Brazilian Information System for Notificable Diseases and the Brazilian Mortality Information System, from 2007 to 2015, in Palmas, Tocantins State, Brazil. The probabilistic software was OpenRecLink, and a deterministic post-processing stage was applied to the data obtained from three different probabilistic linkage strategies. The three strategies were compared to each other, and the deterministic post-processing stage was added. The sensibility of the probabilistic strategies without manual revision varied from 69.1% and 77.8%, while the same strategies plus the deterministic post-processing stage varied from 92.9% to 96.3%. Sensitivity of the two probabilistic strategies with manual revision was similar to that obtained by the deterministic post-processing stage, but the number of matches that were referred to manual revision by the two probabilistic strategies varied between 1,177 and 1,132 records, compared to 149 and 145 after the deterministic post-processing stage. Our findings suggest that the deterministic post-processing stage is a promising option, both to increase the sensitivity and to reduce the number of matches that need to be reviewed manually, or even to eliminate the need for manual revision altogether.
publishDate 2018
dc.date.none.fl_str_mv 2018-06-21
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6609
url https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6609
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6609/14214
https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6609/14215
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv text/html
application/pdf
dc.publisher.none.fl_str_mv Reports in Public Health
Cadernos de Saúde Pública
publisher.none.fl_str_mv Reports in Public Health
Cadernos de Saúde Pública
dc.source.none.fl_str_mv Reports in Public Health; Vol. 34 No. 6 (2018): June
Cadernos de Saúde Pública; v. 34 n. 6 (2018): Junho
1678-4464
0102-311X
reponame:Cadernos de Saúde Pública
instname:Fundação Oswaldo Cruz (FIOCRUZ)
instacron:FIOCRUZ
instname_str Fundação Oswaldo Cruz (FIOCRUZ)
instacron_str FIOCRUZ
institution FIOCRUZ
reponame_str Cadernos de Saúde Pública
collection Cadernos de Saúde Pública
repository.name.fl_str_mv Cadernos de Saúde Pública - Fundação Oswaldo Cruz (FIOCRUZ)
repository.mail.fl_str_mv cadernos@ensp.fiocruz.br||cadernos@ensp.fiocruz.br
_version_ 1798943385708396544