Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Outros Autores: | , , , |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Cadernos de Saúde Pública |
Texto Completo: | https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6951 |
Resumo: | The objective was to test and assess the accuracy of a scoring method in probabilistic data linkage in order to enable automatic identification of true matches, dispensing with the manual inspection stage. Accuracy study using data from the Breast Cancer Information System (SISMAMA) base in Minas Gerais State, Brazil, from 2009 and 2010. After cleaning and standardization, a 16-step probabilistic linkage of the 2009 and 2010 databases was performed, where each step was inspected manually to obtain a gold standard. Samples were then selected, inspected, and assessed to calculate the method’s accuracy in selecting true matches. All the steps and samples with 200 and 300 matches showed high sensitivity (recall) > 0.97, high positive predictive value (precision) > 0.95, high accuracy (> 0.97) and F measure (> 0.96), and high area under the curve precision-recall (> 0.98). The sample with 100 matches showed high values for these measures, but with low scores. Of the 16 steps assessed, the combined use of only three was sufficient to identify 99.24% of the true matches in the total database. The proposed method allows automatically linking databases, maintaining the method’s accuracy. It facilitates the use of probabilistic linkage in health services, especially for health surveillance and management. |
id |
FIOCRUZ-5_426d41085da6f3f1ee8861add3e9dda6 |
---|---|
oai_identifier_str |
oai:ojs.teste-cadernos.ensp.fiocruz.br:article/6951 |
network_acronym_str |
FIOCRUZ-5 |
network_name_str |
Cadernos de Saúde Pública |
repository_id_str |
|
spelling |
Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dadosSistemas de Informação em SaúdeIntegração de SistemasConfiabilidade dos DadosThe objective was to test and assess the accuracy of a scoring method in probabilistic data linkage in order to enable automatic identification of true matches, dispensing with the manual inspection stage. Accuracy study using data from the Breast Cancer Information System (SISMAMA) base in Minas Gerais State, Brazil, from 2009 and 2010. After cleaning and standardization, a 16-step probabilistic linkage of the 2009 and 2010 databases was performed, where each step was inspected manually to obtain a gold standard. Samples were then selected, inspected, and assessed to calculate the method’s accuracy in selecting true matches. All the steps and samples with 200 and 300 matches showed high sensitivity (recall) > 0.97, high positive predictive value (precision) > 0.95, high accuracy (> 0.97) and F measure (> 0.96), and high area under the curve precision-recall (> 0.98). The sample with 100 matches showed high values for these measures, but with low scores. Of the 16 steps assessed, the combined use of only three was sufficient to identify 99.24% of the true matches in the total database. The proposed method allows automatically linking databases, maintaining the method’s accuracy. It facilitates the use of probabilistic linkage in health services, especially for health surveillance and management.El objectivo fue robar y evaluar la exactitud de un método para la selección de una puntuación, en la relación probabilística de bancos de datos, de forma que sea viable la automatización de la identificación de pares verdaderos, eximiendo la etapa de revisión manual. Estudio de precisión, utilizando datos del Sistema de Información del Cáncer de Mama (SISMAMA) de Minas Gerais, Brasil, de 2009 y 2010. Tras el proceso de limpieza y estandarización, se realizó la relación probabilística de los bancos 2009 y 2010, utilizando 16 pasos, donde cada paso se revisó manualmente para obtener un patrón-oro. Posteriormente, se seleccionaron muestras que fueron revisadas y evaluadas para calcular la precisión del método de selección de los pares verdaderos. Todos los pasos y muestras con 200 y 300 pares presentaron una alta sensibilidad (recall) > 0,97, un alto valor predictivo positivo (precision) > 0,95 y exactitud alta (> 0,97), medida F (> 0,96) y el área bajo la curva precision-recall (> 0,98). La muestra con 100 pares evidenció altos valores para estas medidas, aunque con puntuaciones más bajas. De los 16 pasos evaluados, el uso de solo tres de forma combinada fueron suficientes para identificar 99,24% de los pares verdaderos en el banco total. El método propuesto permite automatizar la relación de las bases de datos, manteniendo la precisión del método. Facilita la utilización de la relación probabilística en el ámbito de los servicios de salud, especialmente para vigilancia y gestión en salud.O objetivo foi testar e avaliar a acurácia de um método para a seleção de escore em relacionamento probabilístico de banco de dados, de forma a viabilizar a automatização da identificação de pares verdadeiros dispensando a etapa de inspeção manual. Estudo de acurácia utilizando dados do Sistema de Informação do Câncer de Mama (SISMAMA) de Minas Gerais, Brasil, de 2009 e 2010. Após o processo de limpeza e padronização, foi realizado o relacionamento probabilístico dos bancos 2009 e 2010 utilizando 16 passos, sendo que cada passo foi inspecionado manualmente para se obter um padrão-ouro. Posteriormente, selecionaram-se amostras que foram inspecionadas e avaliadas para calcular a acurácia do método de seleção dos pares verdadeiros. Todos os passos e amostras com 200 e 300 pares apresentaram alta sensibilidade (recall) > 0,97, alto valor preditivo positivo (precision) > 0,95 e altas acurácia (> 0,97), medida F (> 0,96) e área sob a curva precision-recall (> 0,98). A amostra com 100 pares evidenciou altos valores para essas medidas, porém com escores mais baixos. Dos 16 passos avaliados, o uso de apenas três de forma combinada foi suficiente para identificar 99,24% dos pares verdadeiros no banco total. O método proposto permite automatizar o relacionamento das bases de dados, mantendo a acurácia do método. Facilita a utilização de relacionamento probabilístico no âmbito dos serviços de saúde, especialmente para a vigilância e gestão em saúde.Reports in Public HealthCadernos de Saúde Pública2019-11-11info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersiontext/htmlapplication/pdfhttps://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6951Reports in Public Health; Vol. 35 No. 11 (2019): NovemberCadernos de Saúde Pública; v. 35 n. 11 (2019): Novembro1678-44640102-311Xreponame:Cadernos de Saúde Públicainstname:Fundação Oswaldo Cruz (FIOCRUZ)instacron:FIOCRUZporhttps://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6951/15100https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6951/15101Daniela de Almeida Pereira DuarteCamila Soares Lima CorrêaVívian Assis FayerMário Círio NogueiraMaria Teresa Bustamante-Teixeirainfo:eu-repo/semantics/openAccess2024-03-06T15:29:38Zoai:ojs.teste-cadernos.ensp.fiocruz.br:article/6951Revistahttps://cadernos.ensp.fiocruz.br/ojs/index.php/csphttps://cadernos.ensp.fiocruz.br/ojs/index.php/csp/oaicadernos@ensp.fiocruz.br||cadernos@ensp.fiocruz.br1678-44640102-311Xopendoar:2024-03-06T13:07:58.036207Cadernos de Saúde Pública - Fundação Oswaldo Cruz (FIOCRUZ)true |
dc.title.none.fl_str_mv |
Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados |
title |
Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados |
spellingShingle |
Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados Daniela de Almeida Pereira Duarte Sistemas de Informação em Saúde Integração de Sistemas Confiabilidade dos Dados |
title_short |
Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados |
title_full |
Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados |
title_fullStr |
Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados |
title_full_unstemmed |
Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados |
title_sort |
Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados |
author |
Daniela de Almeida Pereira Duarte |
author_facet |
Daniela de Almeida Pereira Duarte Camila Soares Lima Corrêa Vívian Assis Fayer Mário Círio Nogueira Maria Teresa Bustamante-Teixeira |
author_role |
author |
author2 |
Camila Soares Lima Corrêa Vívian Assis Fayer Mário Círio Nogueira Maria Teresa Bustamante-Teixeira |
author2_role |
author author author author |
dc.contributor.author.fl_str_mv |
Daniela de Almeida Pereira Duarte Camila Soares Lima Corrêa Vívian Assis Fayer Mário Círio Nogueira Maria Teresa Bustamante-Teixeira |
dc.subject.por.fl_str_mv |
Sistemas de Informação em Saúde Integração de Sistemas Confiabilidade dos Dados |
topic |
Sistemas de Informação em Saúde Integração de Sistemas Confiabilidade dos Dados |
description |
The objective was to test and assess the accuracy of a scoring method in probabilistic data linkage in order to enable automatic identification of true matches, dispensing with the manual inspection stage. Accuracy study using data from the Breast Cancer Information System (SISMAMA) base in Minas Gerais State, Brazil, from 2009 and 2010. After cleaning and standardization, a 16-step probabilistic linkage of the 2009 and 2010 databases was performed, where each step was inspected manually to obtain a gold standard. Samples were then selected, inspected, and assessed to calculate the method’s accuracy in selecting true matches. All the steps and samples with 200 and 300 matches showed high sensitivity (recall) > 0.97, high positive predictive value (precision) > 0.95, high accuracy (> 0.97) and F measure (> 0.96), and high area under the curve precision-recall (> 0.98). The sample with 100 matches showed high values for these measures, but with low scores. Of the 16 steps assessed, the combined use of only three was sufficient to identify 99.24% of the true matches in the total database. The proposed method allows automatically linking databases, maintaining the method’s accuracy. It facilitates the use of probabilistic linkage in health services, especially for health surveillance and management. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-11-11 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6951 |
url |
https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6951 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6951/15100 https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6951/15101 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
text/html application/pdf |
dc.publisher.none.fl_str_mv |
Reports in Public Health Cadernos de Saúde Pública |
publisher.none.fl_str_mv |
Reports in Public Health Cadernos de Saúde Pública |
dc.source.none.fl_str_mv |
Reports in Public Health; Vol. 35 No. 11 (2019): November Cadernos de Saúde Pública; v. 35 n. 11 (2019): Novembro 1678-4464 0102-311X reponame:Cadernos de Saúde Pública instname:Fundação Oswaldo Cruz (FIOCRUZ) instacron:FIOCRUZ |
instname_str |
Fundação Oswaldo Cruz (FIOCRUZ) |
instacron_str |
FIOCRUZ |
institution |
FIOCRUZ |
reponame_str |
Cadernos de Saúde Pública |
collection |
Cadernos de Saúde Pública |
repository.name.fl_str_mv |
Cadernos de Saúde Pública - Fundação Oswaldo Cruz (FIOCRUZ) |
repository.mail.fl_str_mv |
cadernos@ensp.fiocruz.br||cadernos@ensp.fiocruz.br |
_version_ |
1798943388105441280 |