Integração de bases de dados administrativos com ferramentas genômicas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | http://www.teses.usp.br/teses/disponiveis/95/95131/tde-23072021-132101/ |
Resumo: | A pesquisa em saúde pública frequentemente requer a integração de informações de diferentes fontes de dados. As metodologias de record linkage (RL) utilizam os campos de identificação de cada registro para vincular indivíduos de diferentes bancos de dados. No entanto, erros nos registros e o alto custo computacional tornam o RL um grande desafio para integrar grandes bancos de dados administrativos. Apresentamos Tucuxi-BLAST, uma ferramenta versátil para RL que utiliza uma abordagem de codificação e análise in silico de DNA para grandes bancos de dados administrativos. Pela reproposição de ferramentas genômicas, fomos capazes de integrar três bases de dados de saúde brasileiras com alta sensibilidade e especificidade e rastrear indivíduos em vários bancos de dados epidemiológicos. Comparado com cinco ferramentas RL existentes, nosso método obteve a mais alta precisão e velocidade. Além disso, a etapa de validação independente usando 300 milhões de registros simulados, mostrou um consumo de memória RAM de apenas ~4GB e 23h de processamento em um desktop comum, sem necessidade do uso de plataformas de processamento de alto desempenho. Tucuxi-BLAST pode melhorar a pesquisa médica baseada em dados e fornece uma maneira rápida e precisa de integrar informações individuais em vários bancos de dados administrativos. |
id |
USP_1df43072cd908ff6ffd5a6951db26316 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-23072021-132101 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Integração de bases de dados administrativos com ferramentas genômicasRecord linkage of administrative databases with genomic toolsBLASTBLASTCodificação em DNADNA-encodedEpidemiologiaEpidemiologicalFerramentas genômicasGenomic toolsRecord linkageRecord linkageA pesquisa em saúde pública frequentemente requer a integração de informações de diferentes fontes de dados. As metodologias de record linkage (RL) utilizam os campos de identificação de cada registro para vincular indivíduos de diferentes bancos de dados. No entanto, erros nos registros e o alto custo computacional tornam o RL um grande desafio para integrar grandes bancos de dados administrativos. Apresentamos Tucuxi-BLAST, uma ferramenta versátil para RL que utiliza uma abordagem de codificação e análise in silico de DNA para grandes bancos de dados administrativos. Pela reproposição de ferramentas genômicas, fomos capazes de integrar três bases de dados de saúde brasileiras com alta sensibilidade e especificidade e rastrear indivíduos em vários bancos de dados epidemiológicos. Comparado com cinco ferramentas RL existentes, nosso método obteve a mais alta precisão e velocidade. Além disso, a etapa de validação independente usando 300 milhões de registros simulados, mostrou um consumo de memória RAM de apenas ~4GB e 23h de processamento em um desktop comum, sem necessidade do uso de plataformas de processamento de alto desempenho. Tucuxi-BLAST pode melhorar a pesquisa médica baseada em dados e fornece uma maneira rápida e precisa de integrar informações individuais em vários bancos de dados administrativos.Public health research frequently requires integrating information from different data sources. Record linkage (RL) methodologies utilize the identification fields of each record to link individuals from different databases. However, errors in the records and the high computational costs involved make RL a major challenge for linking large administrative databases. We present Tucuxi-BLAST, a versatile tool for RL that utilizes a DNA-encoded approach to analyze massive administrative databases. By repurposing genomic tools, we were able to integrate three Brazilian health databases with great sensitivity and specificity, and to perform subject tracing across multiple epidemiological databases. Compared to five existing RL tools, our method obtained the highest accuracy and speed. Furthermore, in an independent validation step using 100 million simulated records. On a desktop, the RAM memory consumption was only ~4GB and 23 hours of processing. Tucuxi-BLAST can improve data-driven medical research and provides a rapid and accurate way for linking individual information across several administrative databases.Biblioteca Digitais de Teses e Dissertações da USPNakaya, Helder Takashi ImotoAraújo, José Deney Alves de2021-07-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/95/95131/tde-23072021-132101/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-07-23T12:58:20Zoai:teses.usp.br:tde-23072021-132101Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-07-23T12:58:20Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Integração de bases de dados administrativos com ferramentas genômicas Record linkage of administrative databases with genomic tools |
title |
Integração de bases de dados administrativos com ferramentas genômicas |
spellingShingle |
Integração de bases de dados administrativos com ferramentas genômicas Araújo, José Deney Alves de BLAST BLAST Codificação em DNA DNA-encoded Epidemiologia Epidemiological Ferramentas genômicas Genomic tools Record linkage Record linkage |
title_short |
Integração de bases de dados administrativos com ferramentas genômicas |
title_full |
Integração de bases de dados administrativos com ferramentas genômicas |
title_fullStr |
Integração de bases de dados administrativos com ferramentas genômicas |
title_full_unstemmed |
Integração de bases de dados administrativos com ferramentas genômicas |
title_sort |
Integração de bases de dados administrativos com ferramentas genômicas |
author |
Araújo, José Deney Alves de |
author_facet |
Araújo, José Deney Alves de |
author_role |
author |
dc.contributor.none.fl_str_mv |
Nakaya, Helder Takashi Imoto |
dc.contributor.author.fl_str_mv |
Araújo, José Deney Alves de |
dc.subject.por.fl_str_mv |
BLAST BLAST Codificação em DNA DNA-encoded Epidemiologia Epidemiological Ferramentas genômicas Genomic tools Record linkage Record linkage |
topic |
BLAST BLAST Codificação em DNA DNA-encoded Epidemiologia Epidemiological Ferramentas genômicas Genomic tools Record linkage Record linkage |
description |
A pesquisa em saúde pública frequentemente requer a integração de informações de diferentes fontes de dados. As metodologias de record linkage (RL) utilizam os campos de identificação de cada registro para vincular indivíduos de diferentes bancos de dados. No entanto, erros nos registros e o alto custo computacional tornam o RL um grande desafio para integrar grandes bancos de dados administrativos. Apresentamos Tucuxi-BLAST, uma ferramenta versátil para RL que utiliza uma abordagem de codificação e análise in silico de DNA para grandes bancos de dados administrativos. Pela reproposição de ferramentas genômicas, fomos capazes de integrar três bases de dados de saúde brasileiras com alta sensibilidade e especificidade e rastrear indivíduos em vários bancos de dados epidemiológicos. Comparado com cinco ferramentas RL existentes, nosso método obteve a mais alta precisão e velocidade. Além disso, a etapa de validação independente usando 300 milhões de registros simulados, mostrou um consumo de memória RAM de apenas ~4GB e 23h de processamento em um desktop comum, sem necessidade do uso de plataformas de processamento de alto desempenho. Tucuxi-BLAST pode melhorar a pesquisa médica baseada em dados e fornece uma maneira rápida e precisa de integrar informações individuais em vários bancos de dados administrativos. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-07-06 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://www.teses.usp.br/teses/disponiveis/95/95131/tde-23072021-132101/ |
url |
http://www.teses.usp.br/teses/disponiveis/95/95131/tde-23072021-132101/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1809091018978492416 |