Explorando Espaços Métricos Correlacionados em Consultas por Similaridade sobre Bases de Dados Incompletos

Detalhes bibliográficos
Autor(a) principal: Rodrigues, Lucas Santiago
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-13092021-140800/
Resumo: O crescente avanço na geração de dados advindos de várias fontes, tornou necessário o desenvolvimento de métodos de apoio aos processos de gerenciamento de grandes quantidades de dados complexos, como imagens, vídeos e áudios. Entretanto, a ocorrência de falhas durante os processos de coleta e armazenamento dos dados devido a diversas causas resultam na incompletude dos bancos de dados, afetando negativamente a execução de consultas por similaridade em inúmeras tarefas de recuperação de informação. Especificamente em consultas por similaridade, as funções de distâncias tradicionais, como a Euclidiana, não medem a dissimilaridade entre pares de atributos com valores faltantes. Abordagens existentes na literatura lidam com o problema de bases de dados incompletos por meio do descarte de tuplas com valores faltantes, a imputação de valores por meio de várias heurísticas e a indexação de bases de dados incompletos. No entanto, a aplicação do descarte de dados pode ocasionar a redução significativa do conjunto de dados, imputações de valores podem introduzir distorções no conjunto de dados e a indexação de dados oferece tratamentos específicos ao tratamento de dados faltante e muitas vezes custoso. O objetivo deste trabalho consiste em extrair informações intrínsecas dos dados para auxiliar na execução de consultas por similaridade sobre bases incompletas, sem o descarte de dados e nem a utilização de um método de imputação de valores. Nesse contexto, este trabalho de mestrado propõe o método SOLID (Search Over Correlated and Incomplete Data), que utiliza a correlação entre pares de espaços métricos definidos por um conjunto de representações para gerar fatores de compatibilidade a partir da identificação de atributos complexos mais correlacionados com relação às ocorrências de objetos com valores faltantes. As consultas por similaridade são executadas por meio de uma função de distância, cuja construção inclui propriedades propostas neste trabalho. Ela aplica os fatores de compatibilidade de acordo com o cenário da falta de dados ocorrida e consolida as distâncias resultantes, reduzindo a influência dos dados faltantes. Uma análise experimental realizada com o SOLID mostra que, para diferentes bases de dados de dimensionalidades e cardinalidades distintas, a correlação entre espaços métricos altamente correlacionados pode auxiliar na redução da influência de dados faltantes ao executar consultas por similaridade. O SOLID é mais de 55% mais preciso do que métodos de imputação ao recuperar tuplas sobre bases que podem até mesmo conter grandes quantidades de dados faltantes (50%), além de executar consultas até 100x mais rápido do que seus concorrentes.
id USP_0380820be882e956b4d1400866cee09e
oai_identifier_str oai:teses.usp.br:tde-13092021-140800
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Explorando Espaços Métricos Correlacionados em Consultas por Similaridade sobre Bases de Dados IncompletosExploiting Correlated Metric Spaces in Similarity Queries over Incomplete DatabasesComplex dataConsultas por similaridadeCorrelação de espaços métricosDados complexosDados faltantesMetric spaces correlationMissing dataSimilarity searchesO crescente avanço na geração de dados advindos de várias fontes, tornou necessário o desenvolvimento de métodos de apoio aos processos de gerenciamento de grandes quantidades de dados complexos, como imagens, vídeos e áudios. Entretanto, a ocorrência de falhas durante os processos de coleta e armazenamento dos dados devido a diversas causas resultam na incompletude dos bancos de dados, afetando negativamente a execução de consultas por similaridade em inúmeras tarefas de recuperação de informação. Especificamente em consultas por similaridade, as funções de distâncias tradicionais, como a Euclidiana, não medem a dissimilaridade entre pares de atributos com valores faltantes. Abordagens existentes na literatura lidam com o problema de bases de dados incompletos por meio do descarte de tuplas com valores faltantes, a imputação de valores por meio de várias heurísticas e a indexação de bases de dados incompletos. No entanto, a aplicação do descarte de dados pode ocasionar a redução significativa do conjunto de dados, imputações de valores podem introduzir distorções no conjunto de dados e a indexação de dados oferece tratamentos específicos ao tratamento de dados faltante e muitas vezes custoso. O objetivo deste trabalho consiste em extrair informações intrínsecas dos dados para auxiliar na execução de consultas por similaridade sobre bases incompletas, sem o descarte de dados e nem a utilização de um método de imputação de valores. Nesse contexto, este trabalho de mestrado propõe o método SOLID (Search Over Correlated and Incomplete Data), que utiliza a correlação entre pares de espaços métricos definidos por um conjunto de representações para gerar fatores de compatibilidade a partir da identificação de atributos complexos mais correlacionados com relação às ocorrências de objetos com valores faltantes. As consultas por similaridade são executadas por meio de uma função de distância, cuja construção inclui propriedades propostas neste trabalho. Ela aplica os fatores de compatibilidade de acordo com o cenário da falta de dados ocorrida e consolida as distâncias resultantes, reduzindo a influência dos dados faltantes. Uma análise experimental realizada com o SOLID mostra que, para diferentes bases de dados de dimensionalidades e cardinalidades distintas, a correlação entre espaços métricos altamente correlacionados pode auxiliar na redução da influência de dados faltantes ao executar consultas por similaridade. O SOLID é mais de 55% mais preciso do que métodos de imputação ao recuperar tuplas sobre bases que podem até mesmo conter grandes quantidades de dados faltantes (50%), além de executar consultas até 100x mais rápido do que seus concorrentes.The growing advances in data generation from various data sources make it necessary to develop methods to support the management processes of large amounts of complex data, such as images, videos, and audio. However, the occurrence of failures during the data collection and storage processes leads to incompleteness, which negatively affects the execution of similarity queries in numerous information retrieval tasks. Specifically, in similarity queries, traditional distance functions, such as Euclidean, do not measure the dissimilarity between pairs of attributes with missing values. Traditional approaches from literature deal with incomplete databases by discarding tuples with missing values, imputing values using several heuristics, and indexing incomplete databases. However, the application of data deletion can cause a significant reduction of the dataset, and imputations of values can introduce distortions in the dataset. This work aims to extract intrinsic information from the data to help execute similarity queries on incomplete databases without discarding data or using a value imputation method. In this context, this masters dissertation proposes the SOLID (Search Over Correlated and Incomplete Data) method, which uses the correlation between pairs of metric spaces defined by a set of data representations to generate compatibility factors from identifying complex attributes correlated concerning occurrences of objects with missing values. Similarity queries are performed when the distance function proposed in this work is employed, which applies the compatibility factors according to the missing data scenario and consolidates the resulting distances, reducing the missing datas influence. Experimental analysis performed with SOLID shows that, for several databases, the correlation between highly correlated metric spaces can reduce the influence of missing data when executing similarity queries. Thus, SOLID is more than 55% better than imputation methods in accurately retrieving tuples over databases even with large amounts of missing data, in addition to executing queries by up to 100x faster than SOLID\'s competitor.Biblioteca Digitais de Teses e Dissertações da USPTraina Junior, CaetanoRodrigues, Lucas Santiago2021-07-26info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-13092021-140800/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2021-09-13T17:12:03Zoai:teses.usp.br:tde-13092021-140800Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212021-09-13T17:12:03Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Explorando Espaços Métricos Correlacionados em Consultas por Similaridade sobre Bases de Dados Incompletos
Exploiting Correlated Metric Spaces in Similarity Queries over Incomplete Databases
title Explorando Espaços Métricos Correlacionados em Consultas por Similaridade sobre Bases de Dados Incompletos
spellingShingle Explorando Espaços Métricos Correlacionados em Consultas por Similaridade sobre Bases de Dados Incompletos
Rodrigues, Lucas Santiago
Complex data
Consultas por similaridade
Correlação de espaços métricos
Dados complexos
Dados faltantes
Metric spaces correlation
Missing data
Similarity searches
title_short Explorando Espaços Métricos Correlacionados em Consultas por Similaridade sobre Bases de Dados Incompletos
title_full Explorando Espaços Métricos Correlacionados em Consultas por Similaridade sobre Bases de Dados Incompletos
title_fullStr Explorando Espaços Métricos Correlacionados em Consultas por Similaridade sobre Bases de Dados Incompletos
title_full_unstemmed Explorando Espaços Métricos Correlacionados em Consultas por Similaridade sobre Bases de Dados Incompletos
title_sort Explorando Espaços Métricos Correlacionados em Consultas por Similaridade sobre Bases de Dados Incompletos
author Rodrigues, Lucas Santiago
author_facet Rodrigues, Lucas Santiago
author_role author
dc.contributor.none.fl_str_mv Traina Junior, Caetano
dc.contributor.author.fl_str_mv Rodrigues, Lucas Santiago
dc.subject.por.fl_str_mv Complex data
Consultas por similaridade
Correlação de espaços métricos
Dados complexos
Dados faltantes
Metric spaces correlation
Missing data
Similarity searches
topic Complex data
Consultas por similaridade
Correlação de espaços métricos
Dados complexos
Dados faltantes
Metric spaces correlation
Missing data
Similarity searches
description O crescente avanço na geração de dados advindos de várias fontes, tornou necessário o desenvolvimento de métodos de apoio aos processos de gerenciamento de grandes quantidades de dados complexos, como imagens, vídeos e áudios. Entretanto, a ocorrência de falhas durante os processos de coleta e armazenamento dos dados devido a diversas causas resultam na incompletude dos bancos de dados, afetando negativamente a execução de consultas por similaridade em inúmeras tarefas de recuperação de informação. Especificamente em consultas por similaridade, as funções de distâncias tradicionais, como a Euclidiana, não medem a dissimilaridade entre pares de atributos com valores faltantes. Abordagens existentes na literatura lidam com o problema de bases de dados incompletos por meio do descarte de tuplas com valores faltantes, a imputação de valores por meio de várias heurísticas e a indexação de bases de dados incompletos. No entanto, a aplicação do descarte de dados pode ocasionar a redução significativa do conjunto de dados, imputações de valores podem introduzir distorções no conjunto de dados e a indexação de dados oferece tratamentos específicos ao tratamento de dados faltante e muitas vezes custoso. O objetivo deste trabalho consiste em extrair informações intrínsecas dos dados para auxiliar na execução de consultas por similaridade sobre bases incompletas, sem o descarte de dados e nem a utilização de um método de imputação de valores. Nesse contexto, este trabalho de mestrado propõe o método SOLID (Search Over Correlated and Incomplete Data), que utiliza a correlação entre pares de espaços métricos definidos por um conjunto de representações para gerar fatores de compatibilidade a partir da identificação de atributos complexos mais correlacionados com relação às ocorrências de objetos com valores faltantes. As consultas por similaridade são executadas por meio de uma função de distância, cuja construção inclui propriedades propostas neste trabalho. Ela aplica os fatores de compatibilidade de acordo com o cenário da falta de dados ocorrida e consolida as distâncias resultantes, reduzindo a influência dos dados faltantes. Uma análise experimental realizada com o SOLID mostra que, para diferentes bases de dados de dimensionalidades e cardinalidades distintas, a correlação entre espaços métricos altamente correlacionados pode auxiliar na redução da influência de dados faltantes ao executar consultas por similaridade. O SOLID é mais de 55% mais preciso do que métodos de imputação ao recuperar tuplas sobre bases que podem até mesmo conter grandes quantidades de dados faltantes (50%), além de executar consultas até 100x mais rápido do que seus concorrentes.
publishDate 2021
dc.date.none.fl_str_mv 2021-07-26
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-13092021-140800/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-13092021-140800/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256945316069376