Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Outros Autores: | , , , |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Cadernos de Saúde Pública |
Texto Completo: | http://old.scielo.br/scielo.php?script=sci_arttext&pid=S0102-311X2019001304001 |
Resumo: | Resumo: O objetivo foi testar e avaliar a acurácia de um método para a seleção de escore em relacionamento probabilístico de banco de dados, de forma a viabilizar a automatização da identificação de pares verdadeiros dispensando a etapa de inspeção manual. Estudo de acurácia utilizando dados do Sistema de Informação do Câncer de Mama (SISMAMA) de Minas Gerais, Brasil, de 2009 e 2010. Após o processo de limpeza e padronização, foi realizado o relacionamento probabilístico dos bancos 2009 e 2010 utilizando 16 passos, sendo que cada passo foi inspecionado manualmente para se obter um padrão-ouro. Posteriormente, selecionaram-se amostras que foram inspecionadas e avaliadas para calcular a acurácia do método de seleção dos pares verdadeiros. Todos os passos e amostras com 200 e 300 pares apresentaram alta sensibilidade (recall) > 0,97, alto valor preditivo positivo (precision) > 0,95 e altas acurácia (> 0,97), medida F (> 0,96) e área sob a curva precision-recall (> 0,98). A amostra com 100 pares evidenciou altos valores para essas medidas, porém com escores mais baixos. Dos 16 passos avaliados, o uso de apenas três de forma combinada foi suficiente para identificar 99,24% dos pares verdadeiros no banco total. O método proposto permite automatizar o relacionamento das bases de dados, mantendo a acurácia do método. Facilita a utilização de relacionamento probabilístico no âmbito dos serviços de saúde, especialmente para a vigilância e gestão em saúde. |
id |
FIOCRUZ-5_1b7cb974435363296cf0a6da0056c518 |
---|---|
oai_identifier_str |
oai:scielo:S0102-311X2019001304001 |
network_acronym_str |
FIOCRUZ-5 |
network_name_str |
Cadernos de Saúde Pública |
repository_id_str |
|
spelling |
Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dadosSistemas de Informação em SaúdeIntegração de SistemasConfiabilidade dos DadosResumo: O objetivo foi testar e avaliar a acurácia de um método para a seleção de escore em relacionamento probabilístico de banco de dados, de forma a viabilizar a automatização da identificação de pares verdadeiros dispensando a etapa de inspeção manual. Estudo de acurácia utilizando dados do Sistema de Informação do Câncer de Mama (SISMAMA) de Minas Gerais, Brasil, de 2009 e 2010. Após o processo de limpeza e padronização, foi realizado o relacionamento probabilístico dos bancos 2009 e 2010 utilizando 16 passos, sendo que cada passo foi inspecionado manualmente para se obter um padrão-ouro. Posteriormente, selecionaram-se amostras que foram inspecionadas e avaliadas para calcular a acurácia do método de seleção dos pares verdadeiros. Todos os passos e amostras com 200 e 300 pares apresentaram alta sensibilidade (recall) > 0,97, alto valor preditivo positivo (precision) > 0,95 e altas acurácia (> 0,97), medida F (> 0,96) e área sob a curva precision-recall (> 0,98). A amostra com 100 pares evidenciou altos valores para essas medidas, porém com escores mais baixos. Dos 16 passos avaliados, o uso de apenas três de forma combinada foi suficiente para identificar 99,24% dos pares verdadeiros no banco total. O método proposto permite automatizar o relacionamento das bases de dados, mantendo a acurácia do método. Facilita a utilização de relacionamento probabilístico no âmbito dos serviços de saúde, especialmente para a vigilância e gestão em saúde.Escola Nacional de Saúde Pública Sergio Arouca, Fundação Oswaldo Cruz2019-01-01info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersiontext/htmlhttp://old.scielo.br/scielo.php?script=sci_arttext&pid=S0102-311X2019001304001Cadernos de Saúde Pública v.35 n.11 2019reponame:Cadernos de Saúde Públicainstname:Fundação Oswaldo Cruz (FIOCRUZ)instacron:FIOCRUZ10.1590/0102-311x00066419info:eu-repo/semantics/openAccessDuarte,Daniela de Almeida PereiraCorrêa,Camila Soares LimaFayer,Vívian AssisNogueira,Mário CírioBustamante-Teixeira,Maria Teresapor2019-11-07T00:00:00Zoai:scielo:S0102-311X2019001304001Revistahttp://cadernos.ensp.fiocruz.br/csp/https://old.scielo.br/oai/scielo-oai.phpcadernos@ensp.fiocruz.br||cadernos@ensp.fiocruz.br1678-44640102-311Xopendoar:2019-11-07T00:00Cadernos de Saúde Pública - Fundação Oswaldo Cruz (FIOCRUZ)false |
dc.title.none.fl_str_mv |
Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados |
title |
Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados |
spellingShingle |
Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados Duarte,Daniela de Almeida Pereira Sistemas de Informação em Saúde Integração de Sistemas Confiabilidade dos Dados |
title_short |
Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados |
title_full |
Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados |
title_fullStr |
Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados |
title_full_unstemmed |
Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados |
title_sort |
Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados |
author |
Duarte,Daniela de Almeida Pereira |
author_facet |
Duarte,Daniela de Almeida Pereira Corrêa,Camila Soares Lima Fayer,Vívian Assis Nogueira,Mário Círio Bustamante-Teixeira,Maria Teresa |
author_role |
author |
author2 |
Corrêa,Camila Soares Lima Fayer,Vívian Assis Nogueira,Mário Círio Bustamante-Teixeira,Maria Teresa |
author2_role |
author author author author |
dc.contributor.author.fl_str_mv |
Duarte,Daniela de Almeida Pereira Corrêa,Camila Soares Lima Fayer,Vívian Assis Nogueira,Mário Círio Bustamante-Teixeira,Maria Teresa |
dc.subject.por.fl_str_mv |
Sistemas de Informação em Saúde Integração de Sistemas Confiabilidade dos Dados |
topic |
Sistemas de Informação em Saúde Integração de Sistemas Confiabilidade dos Dados |
description |
Resumo: O objetivo foi testar e avaliar a acurácia de um método para a seleção de escore em relacionamento probabilístico de banco de dados, de forma a viabilizar a automatização da identificação de pares verdadeiros dispensando a etapa de inspeção manual. Estudo de acurácia utilizando dados do Sistema de Informação do Câncer de Mama (SISMAMA) de Minas Gerais, Brasil, de 2009 e 2010. Após o processo de limpeza e padronização, foi realizado o relacionamento probabilístico dos bancos 2009 e 2010 utilizando 16 passos, sendo que cada passo foi inspecionado manualmente para se obter um padrão-ouro. Posteriormente, selecionaram-se amostras que foram inspecionadas e avaliadas para calcular a acurácia do método de seleção dos pares verdadeiros. Todos os passos e amostras com 200 e 300 pares apresentaram alta sensibilidade (recall) > 0,97, alto valor preditivo positivo (precision) > 0,95 e altas acurácia (> 0,97), medida F (> 0,96) e área sob a curva precision-recall (> 0,98). A amostra com 100 pares evidenciou altos valores para essas medidas, porém com escores mais baixos. Dos 16 passos avaliados, o uso de apenas três de forma combinada foi suficiente para identificar 99,24% dos pares verdadeiros no banco total. O método proposto permite automatizar o relacionamento das bases de dados, mantendo a acurácia do método. Facilita a utilização de relacionamento probabilístico no âmbito dos serviços de saúde, especialmente para a vigilância e gestão em saúde. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-01-01 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://old.scielo.br/scielo.php?script=sci_arttext&pid=S0102-311X2019001304001 |
url |
http://old.scielo.br/scielo.php?script=sci_arttext&pid=S0102-311X2019001304001 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
10.1590/0102-311x00066419 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
text/html |
dc.publisher.none.fl_str_mv |
Escola Nacional de Saúde Pública Sergio Arouca, Fundação Oswaldo Cruz |
publisher.none.fl_str_mv |
Escola Nacional de Saúde Pública Sergio Arouca, Fundação Oswaldo Cruz |
dc.source.none.fl_str_mv |
Cadernos de Saúde Pública v.35 n.11 2019 reponame:Cadernos de Saúde Pública instname:Fundação Oswaldo Cruz (FIOCRUZ) instacron:FIOCRUZ |
instname_str |
Fundação Oswaldo Cruz (FIOCRUZ) |
instacron_str |
FIOCRUZ |
institution |
FIOCRUZ |
reponame_str |
Cadernos de Saúde Pública |
collection |
Cadernos de Saúde Pública |
repository.name.fl_str_mv |
Cadernos de Saúde Pública - Fundação Oswaldo Cruz (FIOCRUZ) |
repository.mail.fl_str_mv |
cadernos@ensp.fiocruz.br||cadernos@ensp.fiocruz.br |
_version_ |
1754115740298903552 |