Parallel blocking for entity resolution in the context of semi-structured data.

Detalhes bibliográficos
Autor(a) principal: ARAÚJO, Tiago Brasileiro.
Data de Publicação: 2020
Tipo de documento: Tese
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFCG
Texto Completo: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12655
Resumo: A tarefa de Resolução de Entidades (RE) surge como um passo fundamental para integrar múltiplas bases de conhecimento ou identificar semelhanças entre os dados (entidades). Para evitar o custo quadrático da tarefa de Resolução de Entidades, técnicas de blocagem (ou indexação) são amplamente aplicadas como uma etapa de pré processamento. Neste contexto, dados semi estruturados e grandes fontes de dados (Big Data) emergem como os principais desafios enfrentados pelas técnicas de blocagem. No que diz respeito aos dados semiestruturados, o desafio está relacionado ao fato de que tais dados não compartilham um mesmo esquema, inviabilizando a aplicação de técnicas tradicionais de blocagem. Neste contexto, técnicas agnósticas de blocagem são aplicadas. Em relação às grandes fontes de dados (Big Data), técnicas de blocagem e computação distribuída devem ser aplicadas com o intuito de melhorar a eficiência da tarefa de RE. Nesse sentido, este trabalho propõe um modelo de execução distribuída para blocagem de dados semiestruturados no contexto grandes fontes de dados, capaz de atende às diferentes necessidades dos perfis de aplicação enfrentados pela tarefa de RE. Esses perfis de aplicação estão relacionados às necessidades e características inerentes a cada aplicação, tais como a forma como os dados são recebidos (i.e.,em lotes ou streaming), qualidade dos dados e priorização da eficácia/eficiência da blocagem.Além disso, o presente trabalho também propõe novas técnicas de blocagem que podem ser acopladas ao modelo proposto.Tais técnicas de blocagem endereçam desafios em aberto segundo a literatura, como técnicas agnósticas de blocagemem paralelo, processamento incremental e blocagem de dados em streaming. As técnicas de blocagem foram avaliadas experimentalmente com o objetivo de mensurar a eficiência e eficácia em relação às técnicas de blocagem do estado da arte, utilizando fontes de dados reais. Com base nos resultados experimentais, é possível destacar que as novas técnicas de blocagem apresentaram resultados mais promissores, podendo ser acopladas ao modelo de execução distribuída proposto,de maneira a atender as diferentes necessidades inerentes aos perfis de aplicação.
id UFCG_3c55966fba7c281e2bd2c22499cae905
oai_identifier_str oai:localhost:riufcg/12655
network_acronym_str UFCG
network_name_str Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str 4851
spelling Parallel blocking for entity resolution in the context of semi-structured data.Bloqueio paralelo para resolução de entidades no contexto de dados semiestruturados.Banco de DadosSistemas de InformaçãoResolução de EntidadesDados SemiestruturadosTécnicas Agnósticas de BlocagemComputação DistribuídaStreaming de DadosProcessamento IncrementalDatabaseInformation SystemsEntity ResolutionSemistructured DataSchema-agnostic Blocking Tech-niquesDistributed ComputingStreaming DataIncremental ProcessingCiência da ComputaçãoA tarefa de Resolução de Entidades (RE) surge como um passo fundamental para integrar múltiplas bases de conhecimento ou identificar semelhanças entre os dados (entidades). Para evitar o custo quadrático da tarefa de Resolução de Entidades, técnicas de blocagem (ou indexação) são amplamente aplicadas como uma etapa de pré processamento. Neste contexto, dados semi estruturados e grandes fontes de dados (Big Data) emergem como os principais desafios enfrentados pelas técnicas de blocagem. No que diz respeito aos dados semiestruturados, o desafio está relacionado ao fato de que tais dados não compartilham um mesmo esquema, inviabilizando a aplicação de técnicas tradicionais de blocagem. Neste contexto, técnicas agnósticas de blocagem são aplicadas. Em relação às grandes fontes de dados (Big Data), técnicas de blocagem e computação distribuída devem ser aplicadas com o intuito de melhorar a eficiência da tarefa de RE. Nesse sentido, este trabalho propõe um modelo de execução distribuída para blocagem de dados semiestruturados no contexto grandes fontes de dados, capaz de atende às diferentes necessidades dos perfis de aplicação enfrentados pela tarefa de RE. Esses perfis de aplicação estão relacionados às necessidades e características inerentes a cada aplicação, tais como a forma como os dados são recebidos (i.e.,em lotes ou streaming), qualidade dos dados e priorização da eficácia/eficiência da blocagem.Além disso, o presente trabalho também propõe novas técnicas de blocagem que podem ser acopladas ao modelo proposto.Tais técnicas de blocagem endereçam desafios em aberto segundo a literatura, como técnicas agnósticas de blocagemem paralelo, processamento incremental e blocagem de dados em streaming. As técnicas de blocagem foram avaliadas experimentalmente com o objetivo de mensurar a eficiência e eficácia em relação às técnicas de blocagem do estado da arte, utilizando fontes de dados reais. Com base nos resultados experimentais, é possível destacar que as novas técnicas de blocagem apresentaram resultados mais promissores, podendo ser acopladas ao modelo de execução distribuída proposto,de maneira a atender as diferentes necessidades inerentes aos perfis de aplicação.The Entity Resolution (ER) task emerges as a fundamental step to integrate multiple knowl- edge bases or identify similarities between data (entities). To avoid the quadratic cost of the Entity Resolution task, blocking (or indexing) techniques are widely applied as a prepro- cessing step. In this context, semistructured data and large data sources (Big Data) emerge as the major challenges faced by blocking techniques. Regarding semistructured data, the challenge is related to the fact that such data do not share the same scheme, difficulting the application of traditional blocking techniques. In this context, schema-agnostic blocking techniques are applied. For Big Data scenarios, blocking techniques and distributed com- puting should be applied to improve the efficiency of the RE task. In this sense, this work proposes a distributed execution model for blocking semistructured data in the context of large data sources, capable of dealing with different needs of application profiles faced by the ER task. These application profiles are related to the needs and characteristics inherent to each application, such as how the data are managed (i.e., batch or streaming), data quality and prioritization of effectiveness/efficiency. Furthermore, the present work also proposes new blocking techniques that can be integrated into the proposed model. Such blocking techniques address open challenges in the literature, such as parallel blocking techniques, incremental processing, and streaming data blocking. The blocking techniques proposed in this work were evaluated experimentally with the objective of measuring efficiency and effectiveness against the state-of-the-art ones, using real data sources. Based on the experi- mental results, it is possible to highlight that the novel blocking techniques presented better results when compared to the state-of-the-art blocking techniques. Therefore, the proposed techniques can be hosted to the proposed execution model, so that they can address different necessities inherent to the application profiles.Universidade Federal de Campina GrandeBrasilCentro de Engenharia Elétrica e Informática - CEEIPÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGPIRES, Carlos Eduardo Santos.PIRES, C. E. S.http://lattes.cnpq.br/4986021622366786BAPTISTA, Cláudio de Souza.CAMPELO, Cláudio Elízio Calazans.MONTEIRO FILHO, José Maria da Silva.LÓSCIO, Bernadette Farias.ARAÚJO, Tiago Brasileiro.2020-02-192020-03-30T16:50:28Z2020-03-302020-03-30T16:50:28Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12655ARAÚJO, T. B. Parallel blocking for entity resolution in the context of semi-structured data. 2020. 159 f. Tese (Doutorado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2020. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12655enginfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCG2022-03-16T19:48:53Zoai:localhost:riufcg/12655Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512022-03-16T19:48:53Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.none.fl_str_mv Parallel blocking for entity resolution in the context of semi-structured data.
Bloqueio paralelo para resolução de entidades no contexto de dados semiestruturados.
title Parallel blocking for entity resolution in the context of semi-structured data.
spellingShingle Parallel blocking for entity resolution in the context of semi-structured data.
ARAÚJO, Tiago Brasileiro.
Banco de Dados
Sistemas de Informação
Resolução de Entidades
Dados Semiestruturados
Técnicas Agnósticas de Blocagem
Computação Distribuída
Streaming de Dados
Processamento Incremental
Database
Information Systems
Entity Resolution
Semistructured Data
Schema-agnostic Blocking Tech-niques
Distributed Computing
Streaming Data
Incremental Processing
Ciência da Computação
title_short Parallel blocking for entity resolution in the context of semi-structured data.
title_full Parallel blocking for entity resolution in the context of semi-structured data.
title_fullStr Parallel blocking for entity resolution in the context of semi-structured data.
title_full_unstemmed Parallel blocking for entity resolution in the context of semi-structured data.
title_sort Parallel blocking for entity resolution in the context of semi-structured data.
author ARAÚJO, Tiago Brasileiro.
author_facet ARAÚJO, Tiago Brasileiro.
author_role author
dc.contributor.none.fl_str_mv PIRES, Carlos Eduardo Santos.
PIRES, C. E. S.
http://lattes.cnpq.br/4986021622366786
BAPTISTA, Cláudio de Souza.
CAMPELO, Cláudio Elízio Calazans.
MONTEIRO FILHO, José Maria da Silva.
LÓSCIO, Bernadette Farias.
dc.contributor.author.fl_str_mv ARAÚJO, Tiago Brasileiro.
dc.subject.por.fl_str_mv Banco de Dados
Sistemas de Informação
Resolução de Entidades
Dados Semiestruturados
Técnicas Agnósticas de Blocagem
Computação Distribuída
Streaming de Dados
Processamento Incremental
Database
Information Systems
Entity Resolution
Semistructured Data
Schema-agnostic Blocking Tech-niques
Distributed Computing
Streaming Data
Incremental Processing
Ciência da Computação
topic Banco de Dados
Sistemas de Informação
Resolução de Entidades
Dados Semiestruturados
Técnicas Agnósticas de Blocagem
Computação Distribuída
Streaming de Dados
Processamento Incremental
Database
Information Systems
Entity Resolution
Semistructured Data
Schema-agnostic Blocking Tech-niques
Distributed Computing
Streaming Data
Incremental Processing
Ciência da Computação
description A tarefa de Resolução de Entidades (RE) surge como um passo fundamental para integrar múltiplas bases de conhecimento ou identificar semelhanças entre os dados (entidades). Para evitar o custo quadrático da tarefa de Resolução de Entidades, técnicas de blocagem (ou indexação) são amplamente aplicadas como uma etapa de pré processamento. Neste contexto, dados semi estruturados e grandes fontes de dados (Big Data) emergem como os principais desafios enfrentados pelas técnicas de blocagem. No que diz respeito aos dados semiestruturados, o desafio está relacionado ao fato de que tais dados não compartilham um mesmo esquema, inviabilizando a aplicação de técnicas tradicionais de blocagem. Neste contexto, técnicas agnósticas de blocagem são aplicadas. Em relação às grandes fontes de dados (Big Data), técnicas de blocagem e computação distribuída devem ser aplicadas com o intuito de melhorar a eficiência da tarefa de RE. Nesse sentido, este trabalho propõe um modelo de execução distribuída para blocagem de dados semiestruturados no contexto grandes fontes de dados, capaz de atende às diferentes necessidades dos perfis de aplicação enfrentados pela tarefa de RE. Esses perfis de aplicação estão relacionados às necessidades e características inerentes a cada aplicação, tais como a forma como os dados são recebidos (i.e.,em lotes ou streaming), qualidade dos dados e priorização da eficácia/eficiência da blocagem.Além disso, o presente trabalho também propõe novas técnicas de blocagem que podem ser acopladas ao modelo proposto.Tais técnicas de blocagem endereçam desafios em aberto segundo a literatura, como técnicas agnósticas de blocagemem paralelo, processamento incremental e blocagem de dados em streaming. As técnicas de blocagem foram avaliadas experimentalmente com o objetivo de mensurar a eficiência e eficácia em relação às técnicas de blocagem do estado da arte, utilizando fontes de dados reais. Com base nos resultados experimentais, é possível destacar que as novas técnicas de blocagem apresentaram resultados mais promissores, podendo ser acopladas ao modelo de execução distribuída proposto,de maneira a atender as diferentes necessidades inerentes aos perfis de aplicação.
publishDate 2020
dc.date.none.fl_str_mv 2020-02-19
2020-03-30T16:50:28Z
2020-03-30
2020-03-30T16:50:28Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12655
ARAÚJO, T. B. Parallel blocking for entity resolution in the context of semi-structured data. 2020. 159 f. Tese (Doutorado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2020. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12655
url http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12655
identifier_str_mv ARAÚJO, T. B. Parallel blocking for entity resolution in the context of semi-structured data. 2020. 159 f. Tese (Doutorado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2020. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12655
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
publisher.none.fl_str_mv Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFCG
instname:Universidade Federal de Campina Grande (UFCG)
instacron:UFCG
instname_str Universidade Federal de Campina Grande (UFCG)
instacron_str UFCG
institution UFCG
reponame_str Biblioteca Digital de Teses e Dissertações da UFCG
collection Biblioteca Digital de Teses e Dissertações da UFCG
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br
_version_ 1809744442103431168