Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados

Detalhes bibliográficos
Autor(a) principal: Duarte,Daniela de Almeida Pereira
Data de Publicação: 2019
Outros Autores: Corrêa,Camila Soares Lima, Fayer,Vívian Assis, Nogueira,Mário Círio, Bustamante-Teixeira,Maria Teresa
Tipo de documento: Artigo
Idioma: por
Título da fonte: Cadernos de Saúde Pública
Texto Completo: http://old.scielo.br/scielo.php?script=sci_arttext&pid=S0102-311X2019001304001
Resumo: Resumo: O objetivo foi testar e avaliar a acurácia de um método para a seleção de escore em relacionamento probabilístico de banco de dados, de forma a viabilizar a automatização da identificação de pares verdadeiros dispensando a etapa de inspeção manual. Estudo de acurácia utilizando dados do Sistema de Informação do Câncer de Mama (SISMAMA) de Minas Gerais, Brasil, de 2009 e 2010. Após o processo de limpeza e padronização, foi realizado o relacionamento probabilístico dos bancos 2009 e 2010 utilizando 16 passos, sendo que cada passo foi inspecionado manualmente para se obter um padrão-ouro. Posteriormente, selecionaram-se amostras que foram inspecionadas e avaliadas para calcular a acurácia do método de seleção dos pares verdadeiros. Todos os passos e amostras com 200 e 300 pares apresentaram alta sensibilidade (recall) > 0,97, alto valor preditivo positivo (precision) > 0,95 e altas acurácia (> 0,97), medida F (> 0,96) e área sob a curva precision-recall (> 0,98). A amostra com 100 pares evidenciou altos valores para essas medidas, porém com escores mais baixos. Dos 16 passos avaliados, o uso de apenas três de forma combinada foi suficiente para identificar 99,24% dos pares verdadeiros no banco total. O método proposto permite automatizar o relacionamento das bases de dados, mantendo a acurácia do método. Facilita a utilização de relacionamento probabilístico no âmbito dos serviços de saúde, especialmente para a vigilância e gestão em saúde.
id FIOCRUZ-5_1b7cb974435363296cf0a6da0056c518
oai_identifier_str oai:scielo:S0102-311X2019001304001
network_acronym_str FIOCRUZ-5
network_name_str Cadernos de Saúde Pública
repository_id_str
spelling Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dadosSistemas de Informação em SaúdeIntegração de SistemasConfiabilidade dos DadosResumo: O objetivo foi testar e avaliar a acurácia de um método para a seleção de escore em relacionamento probabilístico de banco de dados, de forma a viabilizar a automatização da identificação de pares verdadeiros dispensando a etapa de inspeção manual. Estudo de acurácia utilizando dados do Sistema de Informação do Câncer de Mama (SISMAMA) de Minas Gerais, Brasil, de 2009 e 2010. Após o processo de limpeza e padronização, foi realizado o relacionamento probabilístico dos bancos 2009 e 2010 utilizando 16 passos, sendo que cada passo foi inspecionado manualmente para se obter um padrão-ouro. Posteriormente, selecionaram-se amostras que foram inspecionadas e avaliadas para calcular a acurácia do método de seleção dos pares verdadeiros. Todos os passos e amostras com 200 e 300 pares apresentaram alta sensibilidade (recall) > 0,97, alto valor preditivo positivo (precision) > 0,95 e altas acurácia (> 0,97), medida F (> 0,96) e área sob a curva precision-recall (> 0,98). A amostra com 100 pares evidenciou altos valores para essas medidas, porém com escores mais baixos. Dos 16 passos avaliados, o uso de apenas três de forma combinada foi suficiente para identificar 99,24% dos pares verdadeiros no banco total. O método proposto permite automatizar o relacionamento das bases de dados, mantendo a acurácia do método. Facilita a utilização de relacionamento probabilístico no âmbito dos serviços de saúde, especialmente para a vigilância e gestão em saúde.Escola Nacional de Saúde Pública Sergio Arouca, Fundação Oswaldo Cruz2019-01-01info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersiontext/htmlhttp://old.scielo.br/scielo.php?script=sci_arttext&pid=S0102-311X2019001304001Cadernos de Saúde Pública v.35 n.11 2019reponame:Cadernos de Saúde Públicainstname:Fundação Oswaldo Cruz (FIOCRUZ)instacron:FIOCRUZ10.1590/0102-311x00066419info:eu-repo/semantics/openAccessDuarte,Daniela de Almeida PereiraCorrêa,Camila Soares LimaFayer,Vívian AssisNogueira,Mário CírioBustamante-Teixeira,Maria Teresapor2019-11-07T00:00:00Zoai:scielo:S0102-311X2019001304001Revistahttp://cadernos.ensp.fiocruz.br/csp/https://old.scielo.br/oai/scielo-oai.phpcadernos@ensp.fiocruz.br||cadernos@ensp.fiocruz.br1678-44640102-311Xopendoar:2019-11-07T00:00Cadernos de Saúde Pública - Fundação Oswaldo Cruz (FIOCRUZ)false
dc.title.none.fl_str_mv Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados
title Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados
spellingShingle Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados
Duarte,Daniela de Almeida Pereira
Sistemas de Informação em Saúde
Integração de Sistemas
Confiabilidade dos Dados
title_short Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados
title_full Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados
title_fullStr Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados
title_full_unstemmed Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados
title_sort Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados
author Duarte,Daniela de Almeida Pereira
author_facet Duarte,Daniela de Almeida Pereira
Corrêa,Camila Soares Lima
Fayer,Vívian Assis
Nogueira,Mário Círio
Bustamante-Teixeira,Maria Teresa
author_role author
author2 Corrêa,Camila Soares Lima
Fayer,Vívian Assis
Nogueira,Mário Círio
Bustamante-Teixeira,Maria Teresa
author2_role author
author
author
author
dc.contributor.author.fl_str_mv Duarte,Daniela de Almeida Pereira
Corrêa,Camila Soares Lima
Fayer,Vívian Assis
Nogueira,Mário Círio
Bustamante-Teixeira,Maria Teresa
dc.subject.por.fl_str_mv Sistemas de Informação em Saúde
Integração de Sistemas
Confiabilidade dos Dados
topic Sistemas de Informação em Saúde
Integração de Sistemas
Confiabilidade dos Dados
description Resumo: O objetivo foi testar e avaliar a acurácia de um método para a seleção de escore em relacionamento probabilístico de banco de dados, de forma a viabilizar a automatização da identificação de pares verdadeiros dispensando a etapa de inspeção manual. Estudo de acurácia utilizando dados do Sistema de Informação do Câncer de Mama (SISMAMA) de Minas Gerais, Brasil, de 2009 e 2010. Após o processo de limpeza e padronização, foi realizado o relacionamento probabilístico dos bancos 2009 e 2010 utilizando 16 passos, sendo que cada passo foi inspecionado manualmente para se obter um padrão-ouro. Posteriormente, selecionaram-se amostras que foram inspecionadas e avaliadas para calcular a acurácia do método de seleção dos pares verdadeiros. Todos os passos e amostras com 200 e 300 pares apresentaram alta sensibilidade (recall) > 0,97, alto valor preditivo positivo (precision) > 0,95 e altas acurácia (> 0,97), medida F (> 0,96) e área sob a curva precision-recall (> 0,98). A amostra com 100 pares evidenciou altos valores para essas medidas, porém com escores mais baixos. Dos 16 passos avaliados, o uso de apenas três de forma combinada foi suficiente para identificar 99,24% dos pares verdadeiros no banco total. O método proposto permite automatizar o relacionamento das bases de dados, mantendo a acurácia do método. Facilita a utilização de relacionamento probabilístico no âmbito dos serviços de saúde, especialmente para a vigilância e gestão em saúde.
publishDate 2019
dc.date.none.fl_str_mv 2019-01-01
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://old.scielo.br/scielo.php?script=sci_arttext&pid=S0102-311X2019001304001
url http://old.scielo.br/scielo.php?script=sci_arttext&pid=S0102-311X2019001304001
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 10.1590/0102-311x00066419
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv text/html
dc.publisher.none.fl_str_mv Escola Nacional de Saúde Pública Sergio Arouca, Fundação Oswaldo Cruz
publisher.none.fl_str_mv Escola Nacional de Saúde Pública Sergio Arouca, Fundação Oswaldo Cruz
dc.source.none.fl_str_mv Cadernos de Saúde Pública v.35 n.11 2019
reponame:Cadernos de Saúde Pública
instname:Fundação Oswaldo Cruz (FIOCRUZ)
instacron:FIOCRUZ
instname_str Fundação Oswaldo Cruz (FIOCRUZ)
instacron_str FIOCRUZ
institution FIOCRUZ
reponame_str Cadernos de Saúde Pública
collection Cadernos de Saúde Pública
repository.name.fl_str_mv Cadernos de Saúde Pública - Fundação Oswaldo Cruz (FIOCRUZ)
repository.mail.fl_str_mv cadernos@ensp.fiocruz.br||cadernos@ensp.fiocruz.br
_version_ 1754115740298903552