Segmentação de nome e endereço por meio de modelos escondidos de Markov e sua aplicação em processos de vinculação de registros

Detalhes bibliográficos
Autor(a) principal: Gonçalves, Rita de Cássia Braga
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UERJ
Texto Completo: http://www.bdtd.uerj.br/handle/1/8738
Resumo: The segmentation of names into its constituent parts is a fundamental step in the integration of databases by means of record linkage techniques. This segmentation can be accomplished in different ways. This study aimed to evaluate the use of Hidden Markov Models (HMM) in the segmentation names and addresses of people and the efficiency of the segmentation on the record linkage process. Databases of the Information System on Mortality (SIM in portuguese) and Information Subsystem for High Complexity Procedures (APAC in portuguese) of the state of Rio de Janeiro between 1999 and 2004 were used. A method composed of eight stages has been proposed for segmenting the names and addresses using routines implemented in PL/SQL and a library called JAHMM, a Java implementation of HMM algorithms. A random sample of 100 records in each database was used to verify the correctness of the segmentation process using the hidden Markov model. In order to verify the effect of segmenting the names through the HMM, three record linkage process were applied on a sample of the aforementioned databases, each of them using a different segmentation strategy, namely: 1) dividing the name into first name , last name, and middle initials; 2) division of the name into five parts; 3) segmentation by HMM. The HMM segmentation mechanism was in good agreement when compared to a human observer. The three linkage processes produced very similar results, with the first strategy performing a little better than the others. This study suggests that the segmentation of Brazilian names by means of HMM is not more efficient than the traditional segmentation methods.
id UERJ_19c6ab901996b976c4c4c5d2421c117a
oai_identifier_str oai:www.bdtd.uerj.br:1/8738
network_acronym_str UERJ
network_name_str Biblioteca Digital de Teses e Dissertações da UERJ
repository_id_str 2903
spelling Freire, Sergio Mirandahttp://lattes.cnpq.br/3730620853566536Coeli, Claudia Medinahttp://lattes.cnpq.br/8907425950833384Junger, Washington Leitehttp://lattes.cnpq.br/7335317712079388Cabral, Maria Deolinda Borgeshttp://lattes.cnpq.br/5689700150630138http://lattes.cnpq.br/4486070284710982Gonçalves, Rita de Cássia Braga2021-01-05T19:41:39Z2014-08-152013-12-11GONÇALVES, Rita de Cássia Braga. Segmentação de nome e endereço por meio de modelos escondidos de Markov e sua aplicação em processos de vinculação de registros. 2013. 104 f. Dissertação (Mestrado em Ciências Médicas) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2013.http://www.bdtd.uerj.br/handle/1/8738The segmentation of names into its constituent parts is a fundamental step in the integration of databases by means of record linkage techniques. This segmentation can be accomplished in different ways. This study aimed to evaluate the use of Hidden Markov Models (HMM) in the segmentation names and addresses of people and the efficiency of the segmentation on the record linkage process. Databases of the Information System on Mortality (SIM in portuguese) and Information Subsystem for High Complexity Procedures (APAC in portuguese) of the state of Rio de Janeiro between 1999 and 2004 were used. A method composed of eight stages has been proposed for segmenting the names and addresses using routines implemented in PL/SQL and a library called JAHMM, a Java implementation of HMM algorithms. A random sample of 100 records in each database was used to verify the correctness of the segmentation process using the hidden Markov model. In order to verify the effect of segmenting the names through the HMM, three record linkage process were applied on a sample of the aforementioned databases, each of them using a different segmentation strategy, namely: 1) dividing the name into first name , last name, and middle initials; 2) division of the name into five parts; 3) segmentation by HMM. The HMM segmentation mechanism was in good agreement when compared to a human observer. The three linkage processes produced very similar results, with the first strategy performing a little better than the others. This study suggests that the segmentation of Brazilian names by means of HMM is not more efficient than the traditional segmentation methods.A segmentação dos nomes nas suas partes constitutivas é uma etapa fundamental no processo de integração de bases de dados por meio das técnicas de vinculação de registros. Esta separação dos nomes pode ser realizada de diferentes maneiras. Este estudo teve como objetivo avaliar a utilização do Modelo Escondido de Markov (HMM) na segmentação nomes e endereços de pessoas e a eficiência desta segmentação no processo de vinculação de registros. Foram utilizadas as bases do Sistema de Informações sobre Mortalidade (SIM) e do Subsistema de Informação de Procedimentos de Alta Complexidade (APAC) do estado do Rio de Janeiro no período entre 1999 a 2004. Uma metodologia foi proposta para a segmentação de nome e endereço sendo composta por oito fases, utilizando rotinas implementadas em PL/SQL e a biblioteca JAHMM, implementação na linguagem Java de algoritmos de HMM. Uma amostra aleatória de 100 registros de cada base foi utilizada para verificar a correção do processo de segmentação por meio do modelo HMM.Para verificar o efeito da segmentação do nome por meio do HMM, três processos de vinculação foram aplicados sobre uma amostra das duas bases citadas acima, cada um deles utilizando diferentes estratégias de segmentação, a saber: 1) divisão dos nomes pela primeira parte, última parte e iniciais do nome do meio; 2) divisão do nome em cinco partes; (3) segmentação segundo o HMM. A aplicação do modelo HMM como mecanismo de segmentação obteve boa concordância quando comparado com o observador humano. As diferentes estratégias de segmentação geraram resultados bastante similares na vinculação de registros, tendo a estratégia 1 obtido um desempenho pouco melhor que as demais. Este estudo sugere que a segmentação de nomes brasileiros por meio do modelo escondido de Markov não é mais eficaz do que métodos tradicionais de segmentação.Submitted by Boris Flegr (boris@uerj.br) on 2021-01-05T19:41:39Z No. of bitstreams: 1 TESE_FINAL_PUBLICADA_Rita_de_Cassia_Braga_Goncalves.pdf: 1713410 bytes, checksum: a0f420b2491cc0ce1a7bee5e3e3ddacd (MD5)Made available in DSpace on 2021-01-05T19:41:39Z (GMT). No. of bitstreams: 1 TESE_FINAL_PUBLICADA_Rita_de_Cassia_Braga_Goncalves.pdf: 1713410 bytes, checksum: a0f420b2491cc0ce1a7bee5e3e3ddacd (MD5) Previous issue date: 2013-12-11application/pdfporUniversidade do Estado do Rio de JaneiroPrograma de Pós-Graduação em Ciências MédicasUERJBRCentro Biomédico::Faculdade de Ciências MédicasData segmentationRecord linkageHidden Markov ModelSegmentação de dadosVinculação de registrosModelo Escondido de MarkovMedicina Processamento de dadosMarkov, Processos deComputação em Informática MédicaSistemas computadorizados de registros médicosRegistros eletrônicos de saúdeArmazenamento e Recuperação da InformaçãoCNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICASegmentação de nome e endereço por meio de modelos escondidos de Markov e sua aplicação em processos de vinculação de registrosSegmentation of names and addresses through hidden Markov models and its application in record linkageinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UERJinstname:Universidade do Estado do Rio de Janeiro (UERJ)instacron:UERJORIGINALTESE_FINAL_PUBLICADA_Rita_de_Cassia_Braga_Goncalves.pdfapplication/pdf1713410http://www.bdtd.uerj.br/bitstream/1/8738/1/TESE_FINAL_PUBLICADA_Rita_de_Cassia_Braga_Goncalves.pdfa0f420b2491cc0ce1a7bee5e3e3ddacdMD511/87382024-02-26 16:00:13.856oai:www.bdtd.uerj.br:1/8738Biblioteca Digital de Teses e Dissertaçõeshttp://www.bdtd.uerj.br/PUBhttps://www.bdtd.uerj.br:8443/oai/requestbdtd.suporte@uerj.bropendoar:29032024-02-26T19:00:13Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ)false
dc.title.por.fl_str_mv Segmentação de nome e endereço por meio de modelos escondidos de Markov e sua aplicação em processos de vinculação de registros
dc.title.alternative.eng.fl_str_mv Segmentation of names and addresses through hidden Markov models and its application in record linkage
title Segmentação de nome e endereço por meio de modelos escondidos de Markov e sua aplicação em processos de vinculação de registros
spellingShingle Segmentação de nome e endereço por meio de modelos escondidos de Markov e sua aplicação em processos de vinculação de registros
Gonçalves, Rita de Cássia Braga
Data segmentation
Record linkage
Hidden Markov Model
Segmentação de dados
Vinculação de registros
Modelo Escondido de Markov
Medicina Processamento de dados
Markov, Processos de
Computação em Informática Médica
Sistemas computadorizados de registros médicos
Registros eletrônicos de saúde
Armazenamento e Recuperação da Informação
CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
title_short Segmentação de nome e endereço por meio de modelos escondidos de Markov e sua aplicação em processos de vinculação de registros
title_full Segmentação de nome e endereço por meio de modelos escondidos de Markov e sua aplicação em processos de vinculação de registros
title_fullStr Segmentação de nome e endereço por meio de modelos escondidos de Markov e sua aplicação em processos de vinculação de registros
title_full_unstemmed Segmentação de nome e endereço por meio de modelos escondidos de Markov e sua aplicação em processos de vinculação de registros
title_sort Segmentação de nome e endereço por meio de modelos escondidos de Markov e sua aplicação em processos de vinculação de registros
author Gonçalves, Rita de Cássia Braga
author_facet Gonçalves, Rita de Cássia Braga
author_role author
dc.contributor.advisor1.fl_str_mv Freire, Sergio Miranda
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/3730620853566536
dc.contributor.referee1.fl_str_mv Coeli, Claudia Medina
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/8907425950833384
dc.contributor.referee2.fl_str_mv Junger, Washington Leite
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/7335317712079388
dc.contributor.referee3.fl_str_mv Cabral, Maria Deolinda Borges
dc.contributor.referee3Lattes.fl_str_mv http://lattes.cnpq.br/5689700150630138
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/4486070284710982
dc.contributor.author.fl_str_mv Gonçalves, Rita de Cássia Braga
contributor_str_mv Freire, Sergio Miranda
Coeli, Claudia Medina
Junger, Washington Leite
Cabral, Maria Deolinda Borges
dc.subject.eng.fl_str_mv Data segmentation
Record linkage
Hidden Markov Model
topic Data segmentation
Record linkage
Hidden Markov Model
Segmentação de dados
Vinculação de registros
Modelo Escondido de Markov
Medicina Processamento de dados
Markov, Processos de
Computação em Informática Médica
Sistemas computadorizados de registros médicos
Registros eletrônicos de saúde
Armazenamento e Recuperação da Informação
CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
dc.subject.por.fl_str_mv Segmentação de dados
Vinculação de registros
Modelo Escondido de Markov
Medicina Processamento de dados
Markov, Processos de
Computação em Informática Médica
Sistemas computadorizados de registros médicos
Registros eletrônicos de saúde
Armazenamento e Recuperação da Informação
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
description The segmentation of names into its constituent parts is a fundamental step in the integration of databases by means of record linkage techniques. This segmentation can be accomplished in different ways. This study aimed to evaluate the use of Hidden Markov Models (HMM) in the segmentation names and addresses of people and the efficiency of the segmentation on the record linkage process. Databases of the Information System on Mortality (SIM in portuguese) and Information Subsystem for High Complexity Procedures (APAC in portuguese) of the state of Rio de Janeiro between 1999 and 2004 were used. A method composed of eight stages has been proposed for segmenting the names and addresses using routines implemented in PL/SQL and a library called JAHMM, a Java implementation of HMM algorithms. A random sample of 100 records in each database was used to verify the correctness of the segmentation process using the hidden Markov model. In order to verify the effect of segmenting the names through the HMM, three record linkage process were applied on a sample of the aforementioned databases, each of them using a different segmentation strategy, namely: 1) dividing the name into first name , last name, and middle initials; 2) division of the name into five parts; 3) segmentation by HMM. The HMM segmentation mechanism was in good agreement when compared to a human observer. The three linkage processes produced very similar results, with the first strategy performing a little better than the others. This study suggests that the segmentation of Brazilian names by means of HMM is not more efficient than the traditional segmentation methods.
publishDate 2013
dc.date.issued.fl_str_mv 2013-12-11
dc.date.available.fl_str_mv 2014-08-15
dc.date.accessioned.fl_str_mv 2021-01-05T19:41:39Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv GONÇALVES, Rita de Cássia Braga. Segmentação de nome e endereço por meio de modelos escondidos de Markov e sua aplicação em processos de vinculação de registros. 2013. 104 f. Dissertação (Mestrado em Ciências Médicas) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2013.
dc.identifier.uri.fl_str_mv http://www.bdtd.uerj.br/handle/1/8738
identifier_str_mv GONÇALVES, Rita de Cássia Braga. Segmentação de nome e endereço por meio de modelos escondidos de Markov e sua aplicação em processos de vinculação de registros. 2013. 104 f. Dissertação (Mestrado em Ciências Médicas) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2013.
url http://www.bdtd.uerj.br/handle/1/8738
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Estado do Rio de Janeiro
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciências Médicas
dc.publisher.initials.fl_str_mv UERJ
dc.publisher.country.fl_str_mv BR
dc.publisher.department.fl_str_mv Centro Biomédico::Faculdade de Ciências Médicas
publisher.none.fl_str_mv Universidade do Estado do Rio de Janeiro
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UERJ
instname:Universidade do Estado do Rio de Janeiro (UERJ)
instacron:UERJ
instname_str Universidade do Estado do Rio de Janeiro (UERJ)
instacron_str UERJ
institution UERJ
reponame_str Biblioteca Digital de Teses e Dissertações da UERJ
collection Biblioteca Digital de Teses e Dissertações da UERJ
bitstream.url.fl_str_mv http://www.bdtd.uerj.br/bitstream/1/8738/1/TESE_FINAL_PUBLICADA_Rita_de_Cassia_Braga_Goncalves.pdf
bitstream.checksum.fl_str_mv a0f420b2491cc0ce1a7bee5e3e3ddacd
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ)
repository.mail.fl_str_mv bdtd.suporte@uerj.br
_version_ 1792352287252807680