Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados

Detalhes bibliográficos
Autor(a) principal: Daniela de Almeida Pereira Duarte
Data de Publicação: 2019
Outros Autores: Camila Soares Lima Corrêa, Vívian Assis Fayer, Mário Círio Nogueira, Maria Teresa Bustamante-Teixeira
Tipo de documento: Artigo
Idioma: por
Título da fonte: Cadernos de Saúde Pública
Texto Completo: https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6951
Resumo: The objective was to test and assess the accuracy of a scoring method in probabilistic data linkage in order to enable automatic identification of true matches, dispensing with the manual inspection stage. Accuracy study using data from the Breast Cancer Information System (SISMAMA) base in Minas Gerais State, Brazil, from 2009 and 2010. After cleaning and standardization, a 16-step probabilistic linkage of the 2009 and 2010 databases was performed, where each step was inspected manually to obtain a gold standard. Samples were then selected, inspected, and assessed to calculate the method’s accuracy in selecting true matches. All the steps and samples with 200 and 300 matches showed high sensitivity (recall) > 0.97, high positive predictive value (precision) > 0.95, high accuracy (> 0.97) and F measure (> 0.96), and high area under the curve precision-recall (> 0.98). The sample with 100 matches showed high values for these measures, but with low scores. Of the 16 steps assessed, the combined use of only three was sufficient to identify 99.24% of the true matches in the total database. The proposed method allows automatically linking databases, maintaining the method’s accuracy. It facilitates the use of probabilistic linkage in health services, especially for health surveillance and management.
id FIOCRUZ-5_426d41085da6f3f1ee8861add3e9dda6
oai_identifier_str oai:ojs.teste-cadernos.ensp.fiocruz.br:article/6951
network_acronym_str FIOCRUZ-5
network_name_str Cadernos de Saúde Pública
repository_id_str
spelling Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dadosSistemas de Informação em SaúdeIntegração de SistemasConfiabilidade dos DadosThe objective was to test and assess the accuracy of a scoring method in probabilistic data linkage in order to enable automatic identification of true matches, dispensing with the manual inspection stage. Accuracy study using data from the Breast Cancer Information System (SISMAMA) base in Minas Gerais State, Brazil, from 2009 and 2010. After cleaning and standardization, a 16-step probabilistic linkage of the 2009 and 2010 databases was performed, where each step was inspected manually to obtain a gold standard. Samples were then selected, inspected, and assessed to calculate the method’s accuracy in selecting true matches. All the steps and samples with 200 and 300 matches showed high sensitivity (recall) > 0.97, high positive predictive value (precision) > 0.95, high accuracy (> 0.97) and F measure (> 0.96), and high area under the curve precision-recall (> 0.98). The sample with 100 matches showed high values for these measures, but with low scores. Of the 16 steps assessed, the combined use of only three was sufficient to identify 99.24% of the true matches in the total database. The proposed method allows automatically linking databases, maintaining the method’s accuracy. It facilitates the use of probabilistic linkage in health services, especially for health surveillance and management.El objectivo fue robar y evaluar la exactitud de un método para la selección de una puntuación, en la relación probabilística de bancos de datos, de forma que sea viable la automatización de la identificación de pares verdaderos, eximiendo la etapa de revisión manual. Estudio de precisión, utilizando datos del Sistema de Información del Cáncer de Mama (SISMAMA) de Minas Gerais, Brasil, de 2009 y 2010. Tras el proceso de limpieza y estandarización, se realizó la relación probabilística de los bancos 2009 y 2010, utilizando 16 pasos, donde cada paso se revisó manualmente para obtener un patrón-oro. Posteriormente, se seleccionaron muestras que fueron revisadas y evaluadas para calcular la precisión del método de selección de los pares verdaderos. Todos los pasos y muestras con 200 y 300 pares presentaron una alta sensibilidad (recall) > 0,97, un alto valor predictivo positivo (precision) > 0,95 y exactitud alta (> 0,97), medida F (> 0,96) y el área bajo la curva precision-recall (> 0,98). La muestra con 100 pares evidenció altos valores para estas medidas, aunque con puntuaciones más bajas. De los 16 pasos evaluados, el uso de solo tres de forma combinada fueron suficientes para identificar 99,24% de los pares verdaderos en el banco total. El método propuesto permite automatizar la relación de las bases de datos, manteniendo la precisión del método. Facilita la utilización de la relación probabilística en el ámbito de los servicios de salud, especialmente para vigilancia y gestión en salud.O objetivo foi testar e avaliar a acurácia de um método para a seleção de escore em relacionamento probabilístico de banco de dados, de forma a viabilizar a automatização da identificação de pares verdadeiros dispensando a etapa de inspeção manual. Estudo de acurácia utilizando dados do Sistema de Informação do Câncer de Mama (SISMAMA) de Minas Gerais, Brasil, de 2009 e 2010. Após o processo de limpeza e padronização, foi realizado o relacionamento probabilístico dos bancos 2009 e 2010 utilizando 16 passos, sendo que cada passo foi inspecionado manualmente para se obter um padrão-ouro. Posteriormente, selecionaram-se amostras que foram inspecionadas e avaliadas para calcular a acurácia do método de seleção dos pares verdadeiros. Todos os passos e amostras com 200 e 300 pares apresentaram alta sensibilidade (recall) > 0,97, alto valor preditivo positivo (precision) > 0,95 e altas acurácia (> 0,97), medida F (> 0,96) e área sob a curva precision-recall (> 0,98). A amostra com 100 pares evidenciou altos valores para essas medidas, porém com escores mais baixos. Dos 16 passos avaliados, o uso de apenas três de forma combinada foi suficiente para identificar 99,24% dos pares verdadeiros no banco total. O método proposto permite automatizar o relacionamento das bases de dados, mantendo a acurácia do método. Facilita a utilização de relacionamento probabilístico no âmbito dos serviços de saúde, especialmente para a vigilância e gestão em saúde.Reports in Public HealthCadernos de Saúde Pública2019-11-11info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersiontext/htmlapplication/pdfhttps://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6951Reports in Public Health; Vol. 35 No. 11 (2019): NovemberCadernos de Saúde Pública; v. 35 n. 11 (2019): Novembro1678-44640102-311Xreponame:Cadernos de Saúde Públicainstname:Fundação Oswaldo Cruz (FIOCRUZ)instacron:FIOCRUZporhttps://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6951/15100https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6951/15101Daniela de Almeida Pereira DuarteCamila Soares Lima CorrêaVívian Assis FayerMário Círio NogueiraMaria Teresa Bustamante-Teixeirainfo:eu-repo/semantics/openAccess2024-03-06T15:29:38Zoai:ojs.teste-cadernos.ensp.fiocruz.br:article/6951Revistahttps://cadernos.ensp.fiocruz.br/ojs/index.php/csphttps://cadernos.ensp.fiocruz.br/ojs/index.php/csp/oaicadernos@ensp.fiocruz.br||cadernos@ensp.fiocruz.br1678-44640102-311Xopendoar:2024-03-06T13:07:58.036207Cadernos de Saúde Pública - Fundação Oswaldo Cruz (FIOCRUZ)true
dc.title.none.fl_str_mv Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados
title Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados
spellingShingle Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados
Daniela de Almeida Pereira Duarte
Sistemas de Informação em Saúde
Integração de Sistemas
Confiabilidade dos Dados
title_short Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados
title_full Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados
title_fullStr Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados
title_full_unstemmed Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados
title_sort Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados
author Daniela de Almeida Pereira Duarte
author_facet Daniela de Almeida Pereira Duarte
Camila Soares Lima Corrêa
Vívian Assis Fayer
Mário Círio Nogueira
Maria Teresa Bustamante-Teixeira
author_role author
author2 Camila Soares Lima Corrêa
Vívian Assis Fayer
Mário Círio Nogueira
Maria Teresa Bustamante-Teixeira
author2_role author
author
author
author
dc.contributor.author.fl_str_mv Daniela de Almeida Pereira Duarte
Camila Soares Lima Corrêa
Vívian Assis Fayer
Mário Círio Nogueira
Maria Teresa Bustamante-Teixeira
dc.subject.por.fl_str_mv Sistemas de Informação em Saúde
Integração de Sistemas
Confiabilidade dos Dados
topic Sistemas de Informação em Saúde
Integração de Sistemas
Confiabilidade dos Dados
description The objective was to test and assess the accuracy of a scoring method in probabilistic data linkage in order to enable automatic identification of true matches, dispensing with the manual inspection stage. Accuracy study using data from the Breast Cancer Information System (SISMAMA) base in Minas Gerais State, Brazil, from 2009 and 2010. After cleaning and standardization, a 16-step probabilistic linkage of the 2009 and 2010 databases was performed, where each step was inspected manually to obtain a gold standard. Samples were then selected, inspected, and assessed to calculate the method’s accuracy in selecting true matches. All the steps and samples with 200 and 300 matches showed high sensitivity (recall) > 0.97, high positive predictive value (precision) > 0.95, high accuracy (> 0.97) and F measure (> 0.96), and high area under the curve precision-recall (> 0.98). The sample with 100 matches showed high values for these measures, but with low scores. Of the 16 steps assessed, the combined use of only three was sufficient to identify 99.24% of the true matches in the total database. The proposed method allows automatically linking databases, maintaining the method’s accuracy. It facilitates the use of probabilistic linkage in health services, especially for health surveillance and management.
publishDate 2019
dc.date.none.fl_str_mv 2019-11-11
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6951
url https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6951
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6951/15100
https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6951/15101
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv text/html
application/pdf
dc.publisher.none.fl_str_mv Reports in Public Health
Cadernos de Saúde Pública
publisher.none.fl_str_mv Reports in Public Health
Cadernos de Saúde Pública
dc.source.none.fl_str_mv Reports in Public Health; Vol. 35 No. 11 (2019): November
Cadernos de Saúde Pública; v. 35 n. 11 (2019): Novembro
1678-4464
0102-311X
reponame:Cadernos de Saúde Pública
instname:Fundação Oswaldo Cruz (FIOCRUZ)
instacron:FIOCRUZ
instname_str Fundação Oswaldo Cruz (FIOCRUZ)
instacron_str FIOCRUZ
institution FIOCRUZ
reponame_str Cadernos de Saúde Pública
collection Cadernos de Saúde Pública
repository.name.fl_str_mv Cadernos de Saúde Pública - Fundação Oswaldo Cruz (FIOCRUZ)
repository.mail.fl_str_mv cadernos@ensp.fiocruz.br||cadernos@ensp.fiocruz.br
_version_ 1798943388105441280