Combinação de sucessivas funções de similaridade para otimização de ambiente para identificação de tuplas duplicadas com recursos de paralelização

Detalhes bibliográficos
Autor(a) principal: Francelino, Mariana
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UNESP
Texto Completo: http://hdl.handle.net/11449/242560
Resumo: Nos últimos anos o problema de identificação de tuplas duplicadas tem se tornado cada vez mais expressivo com o crescimento do cenário Big Data. Empresas, governos, meio acadêmico e indústria geram cada vez mais informações, e tem-se como consequência a dificuldade de extrair conhecimentos valiosos dessas bases, nas quais muitas das vezes são desorganizadas e heterogêneas. Quando usuários, independente da organização, inserem dados em uma base de dados, é comum que eles contenham erros ou inconsistências, onde tais cenários impedem que a etapa de análise de dados gere resultados satisfatórios. Sendo assim, é imprescindível que estes dados sejam limpos, normalizados, e posteriormente tratados. Desta forma, pretendeu-se implementar um ambiente de identificação de tuplas duplicadas com recursos de paralelização e processamento em memória com Apache Spark. Para isso, inicialmente foi realizada uma etapa de limpeza de dados e, posteriormente, foram executados 3 algoritmos de similaridade, Damerau-Levenshtein, Jaro-Winkler e Needleman-Wunsch, com auxílio da paralelização. O intuito foi identificar tuplas duplicadas, aumentar o desempenho dessas técnicas e torná-las funcionais, uma vez que elas possuíam um alto nível de custo computacional. Ao mesmo tempo, foram testadas diversas combinações dessas funções para otimizar os cálculos de similaridade. A análise dos resultados obtidos após a execução do ambiente proposto mostrou que é possível aumentar a precisão dos resultados ao utilizar mais de uma função de similaridade. Além disso, as técnicas de paralelização e processamento em memória melhoraram o desempenho do algoritmo, e o tornam mais eficiente e rápido. A análise de qualidade dos dados também mostrou resultados positivos, sendo possível identificar uma quantidade significativa de tuplas duplicadas e as funções de similaridade utilizadas foram capazes de tratar contextos diferentes e detectar duplicações. Deste modo, propôs-se como contribuição científica a aplicação de diversas funções de similaridade a fim de otimizar os ambientes de identificação de tuplas duplicadas, com recursos de paralelização.
id UNSP_34c11ea32a684f2c51e78a65be0aed0f
oai_identifier_str oai:repositorio.unesp.br:11449/242560
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str 2946
spelling Combinação de sucessivas funções de similaridade para otimização de ambiente para identificação de tuplas duplicadas com recursos de paralelizaçãoCombination of successive similarity functions for optimization of environment for identifying duplicate tuples with resources of parallelizationMineração de dadosAlgoritmos paralelosBig DataProcessamento de textos (Computação)Banco de dadosDuplicate detectionData preprocessingData contextParallel processingNos últimos anos o problema de identificação de tuplas duplicadas tem se tornado cada vez mais expressivo com o crescimento do cenário Big Data. Empresas, governos, meio acadêmico e indústria geram cada vez mais informações, e tem-se como consequência a dificuldade de extrair conhecimentos valiosos dessas bases, nas quais muitas das vezes são desorganizadas e heterogêneas. Quando usuários, independente da organização, inserem dados em uma base de dados, é comum que eles contenham erros ou inconsistências, onde tais cenários impedem que a etapa de análise de dados gere resultados satisfatórios. Sendo assim, é imprescindível que estes dados sejam limpos, normalizados, e posteriormente tratados. Desta forma, pretendeu-se implementar um ambiente de identificação de tuplas duplicadas com recursos de paralelização e processamento em memória com Apache Spark. Para isso, inicialmente foi realizada uma etapa de limpeza de dados e, posteriormente, foram executados 3 algoritmos de similaridade, Damerau-Levenshtein, Jaro-Winkler e Needleman-Wunsch, com auxílio da paralelização. O intuito foi identificar tuplas duplicadas, aumentar o desempenho dessas técnicas e torná-las funcionais, uma vez que elas possuíam um alto nível de custo computacional. Ao mesmo tempo, foram testadas diversas combinações dessas funções para otimizar os cálculos de similaridade. A análise dos resultados obtidos após a execução do ambiente proposto mostrou que é possível aumentar a precisão dos resultados ao utilizar mais de uma função de similaridade. Além disso, as técnicas de paralelização e processamento em memória melhoraram o desempenho do algoritmo, e o tornam mais eficiente e rápido. A análise de qualidade dos dados também mostrou resultados positivos, sendo possível identificar uma quantidade significativa de tuplas duplicadas e as funções de similaridade utilizadas foram capazes de tratar contextos diferentes e detectar duplicações. Deste modo, propôs-se como contribuição científica a aplicação de diversas funções de similaridade a fim de otimizar os ambientes de identificação de tuplas duplicadas, com recursos de paralelização.In recent years, the problem of identifying duplicate tuples has become increasingly expressive with the growth of the Big Data scenario. Companies, governments, the academic community, and industry generate more and more information, leading to difficulties in extracting valuable knowledge from these databases, which are often disorganized and heterogeneous. When users, regardless of the organization, insert data into a database, it is common for them to contain errors or inconsistencies, which prevent the data analysis stage from generating satisfactory results. Therefore, it is essential that these data be cleaned, normalized, and subsequently treated. With this in mind, we aimed to implement an environment for identifying duplicate tuples with parallelization and in-memory processing capabilities using Apache Spark. To this end, a data cleaning step was initially performed, and then three similarity algorithms, Damerau-Levenshtein, Jaro-Winkler, and NeedlemanWunsch, were executed with the help of parallelization. The goal was to identify duplicate tuples, increase the performance of these techniques, and make them functional, since they had a high level of computational cost. At the same time, various combinations of these functions were tested to optimize the similarity calculations. The analysis of the results obtained after the execution of the proposed environment showed that it is possible to increase the accuracy of the results by using more than one similarity function. In addition, the parallelization and in-memory processing techniques improved the performance of the algorithm, making it more efficient and faster. The data quality analysis also showed positive results, it was possible to identify a significant amount of duplicate tuples, and the similarity functions used were able to handle different contexts and detect duplicates. Thus, it was proposed as a scientific contribution the application of various similarity functions in order to optimize the environments for identifying duplicate tuples with parallelization capabilities.Não recebi financiamentoUniversidade Estadual Paulista (Unesp)Valêncio, Carlos Roberto [UNESP]Universidade Estadual Paulista (Unesp)Francelino, Mariana2023-03-20T14:20:49Z2023-03-20T14:20:49Z2023-01-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfhttp://hdl.handle.net/11449/242560porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-01-21T06:20:30Zoai:repositorio.unesp.br:11449/242560Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T23:34:15.370439Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Combinação de sucessivas funções de similaridade para otimização de ambiente para identificação de tuplas duplicadas com recursos de paralelização
Combination of successive similarity functions for optimization of environment for identifying duplicate tuples with resources of parallelization
title Combinação de sucessivas funções de similaridade para otimização de ambiente para identificação de tuplas duplicadas com recursos de paralelização
spellingShingle Combinação de sucessivas funções de similaridade para otimização de ambiente para identificação de tuplas duplicadas com recursos de paralelização
Francelino, Mariana
Mineração de dados
Algoritmos paralelos
Big Data
Processamento de textos (Computação)
Banco de dados
Duplicate detection
Data preprocessing
Data context
Parallel processing
title_short Combinação de sucessivas funções de similaridade para otimização de ambiente para identificação de tuplas duplicadas com recursos de paralelização
title_full Combinação de sucessivas funções de similaridade para otimização de ambiente para identificação de tuplas duplicadas com recursos de paralelização
title_fullStr Combinação de sucessivas funções de similaridade para otimização de ambiente para identificação de tuplas duplicadas com recursos de paralelização
title_full_unstemmed Combinação de sucessivas funções de similaridade para otimização de ambiente para identificação de tuplas duplicadas com recursos de paralelização
title_sort Combinação de sucessivas funções de similaridade para otimização de ambiente para identificação de tuplas duplicadas com recursos de paralelização
author Francelino, Mariana
author_facet Francelino, Mariana
author_role author
dc.contributor.none.fl_str_mv Valêncio, Carlos Roberto [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Francelino, Mariana
dc.subject.por.fl_str_mv Mineração de dados
Algoritmos paralelos
Big Data
Processamento de textos (Computação)
Banco de dados
Duplicate detection
Data preprocessing
Data context
Parallel processing
topic Mineração de dados
Algoritmos paralelos
Big Data
Processamento de textos (Computação)
Banco de dados
Duplicate detection
Data preprocessing
Data context
Parallel processing
description Nos últimos anos o problema de identificação de tuplas duplicadas tem se tornado cada vez mais expressivo com o crescimento do cenário Big Data. Empresas, governos, meio acadêmico e indústria geram cada vez mais informações, e tem-se como consequência a dificuldade de extrair conhecimentos valiosos dessas bases, nas quais muitas das vezes são desorganizadas e heterogêneas. Quando usuários, independente da organização, inserem dados em uma base de dados, é comum que eles contenham erros ou inconsistências, onde tais cenários impedem que a etapa de análise de dados gere resultados satisfatórios. Sendo assim, é imprescindível que estes dados sejam limpos, normalizados, e posteriormente tratados. Desta forma, pretendeu-se implementar um ambiente de identificação de tuplas duplicadas com recursos de paralelização e processamento em memória com Apache Spark. Para isso, inicialmente foi realizada uma etapa de limpeza de dados e, posteriormente, foram executados 3 algoritmos de similaridade, Damerau-Levenshtein, Jaro-Winkler e Needleman-Wunsch, com auxílio da paralelização. O intuito foi identificar tuplas duplicadas, aumentar o desempenho dessas técnicas e torná-las funcionais, uma vez que elas possuíam um alto nível de custo computacional. Ao mesmo tempo, foram testadas diversas combinações dessas funções para otimizar os cálculos de similaridade. A análise dos resultados obtidos após a execução do ambiente proposto mostrou que é possível aumentar a precisão dos resultados ao utilizar mais de uma função de similaridade. Além disso, as técnicas de paralelização e processamento em memória melhoraram o desempenho do algoritmo, e o tornam mais eficiente e rápido. A análise de qualidade dos dados também mostrou resultados positivos, sendo possível identificar uma quantidade significativa de tuplas duplicadas e as funções de similaridade utilizadas foram capazes de tratar contextos diferentes e detectar duplicações. Deste modo, propôs-se como contribuição científica a aplicação de diversas funções de similaridade a fim de otimizar os ambientes de identificação de tuplas duplicadas, com recursos de paralelização.
publishDate 2023
dc.date.none.fl_str_mv 2023-03-20T14:20:49Z
2023-03-20T14:20:49Z
2023-01-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11449/242560
url http://hdl.handle.net/11449/242560
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_ 1808129531362410496