Enhancing trajectory similarity measuring

Detalhes bibliográficos
Autor(a) principal: Furtado, André Salvaro
Data de Publicação: 2017
Tipo de documento: Tese
Idioma: eng
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/handle/123456789/188076
Resumo: Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2017.
id UFSC_1fd315fe8e37e50c96ebcd4de0ccdc83
oai_identifier_str oai:repositorio.ufsc.br:123456789/188076
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Enhancing trajectory similarity measuringComputaçãoProgramação dinâmicaTrajetóriaTese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2017.Nas últimas décadas a coleta e o armazenamento de dados de movimento na forma de trajetórias brutas e/ou semânticas teve um expressivo crescimento, o que resultou na disponibilidade de grandes volumes de dados para mineração e análise. A maior parte das técnicas existentes para análise e mineração de dados de dados de trajetórias são baseadas em alguma forma de comparação de trajetórias, realizadas através da utilização de medidas de similaridade/distância. Portanto, a qualidade do resultado e a escalabilidade dessas técnicas é diretamente dependente da acurácia e da performance da medida de similaridade para trajetórias brutas e/ou semânticas escolhida. Para trajetórias brutas, as medidas de similaridade mais adotadas na literatura foram adaptadas de medidas originalmente propostas para a similaridade de séries temporais, que geralmente possuem dados distribuídos de forma mais regular. Por esse motivo, essas medidas não são robustas à distribuição irregular de pontos existente em dados de trajetórias. Para trajetórias semânticas, apenas algumas poucas medidas foram propostas. Entretanto essas medidas não são flexíveis e robustas para trabalhar com dados multidimensionais, não permitindo a adição de múltiplas dimensões com informação semântica ou sendo capazes de avaliar a similaridade de cada dimensão de forma independente. De forma geral, em ambos os casos as medidas de similaridade adotam estratégias clássicas para determinar seu score de similaridade, como a Distância de Edição (Edit Distance) e a Sequência Comum Mais Longa (Longest Common Sequence). Como essas estratégias são geralmente implementadas utilizando a abordagem de programação dinâmica, elas possuem complexidade de tempo quadrático, o que limita sua escalabilidade. Essa tese tem como objetivo propor novas medidas de similaridade para trajetórias que proporcionem melhorias a diferentes aspectos como a precisão, robustez, flexibilidade e escalabilidade. Para atingir esses objetivos, nessa tese são propostas: i) uma nova medida de similaridade para trajetórias brutas, chamada UMS, que é robusta à distribuição irregular dos pontos nas trajetórias; ii) uma nova medida de similaridade para trajetórias semânticas, chamada MSM, que suporta dados com múltiplas dimensões e permite o matching parcial de dimensões; e iii) um novo algoritmo, chamado FTSM, que adota a estratégia de Branch-and-Bound para reduzir a complexidade geral de ambas as medidas de similaridade propostas, melhorando de forma significativa a escalabilidade. Uma série de experimentos foram realizados utilizando diversos conjuntos de dados diferentes comparando os métodos propostos nessa tese com o estado-da-arte, e os resultados mostraram que: o UMS foi mais preciso e robusto em cenários onde as trajetórias possuem uma taxa de amostragem baixa e/ou uma distribuição irregular dos pontos; o MSM foi mais flexível e robusto à transformações em trajetórias semânticas considerando as múltiplas dimensões desse tipo de dado e o matching parcial entre suas dimensões; e o FTSM melhorou significativamente a performance das medidas propostas com relação às suas implementações originais utilizando a estratégia de programação dinâmica, com ganhos na velocidade de execução que variaram entre 2x mais rápido para bases de dados com trajetórias mais curtas (~100 pontos) até uma ordem de grandeza para trajetórias longas (~1000 pontos).Abstract : The collection of movement data in the form of raw and semantic trajectories has seen an expressive increase in the last decades, what results in the availability of huge data volumes for mining and analysis. Most of existing analysis and mining techniques to discover interesting patterns on trajectory data are based on some sort of trajectory comparison through similarity/distance measures. Thus, their results and scalability are directly dependent on the accuracy and performance of the chosen raw or semantic trajectory similarity measure. For raw trajectories, the most adopted similarity measures in the literature were adapted from measures originally proposed for time-series similarity that are usually more regularly distributed and well-behaved. Therefore, these measures are not robust to the irregular point distribution of trajectory data. For semantic trajectories, only a few measures were recently proposed, however they are not flexible and robust to deal with multiple dimensions by being extensible to include a variety of dimensions with semantic information or allowing partial matchings. In general, for both cases existing measures adopt well-known strategies in their score computation, such as the Edit Distance and the Longest Common Sequence. These measures are usually implemented with a dynamic programming approach that has quadratic complexity, what limits their scalability. This thesis has the objective to enhance trajectory similarity measuring improving its robustness, flexibility and scalability. In order to fulfill this objective we proposed: i) a new similarity measure for raw trajectories, called UMS, that is robust to irregular trajectory point distribution; ii) a new similarity measure for semantic trajectories, called MSM, that supports multiple dimensions and allows partial matching; and iii) a new algorithm, called FTSM, that adopts a branch-and-bound approach to reduce the general complexity of both proposed similarity measures significantly increasing their scalability. We performed several experiments with several datasets comparing our proposal with the state-of-the-art that showed that UMS was more accurate and robust in scenarios of low and irregularly sampled trajectory data, MSM was more flexible and robust to variations in semantic trajectories considering multiple dimensions and allowing partial matching, and FTSM provided an execution time speed-up over the dynamic programming approach varying between 2x for small trajectories (~100 points) up to an order of magnitude for long trajectories (~1000 points).Bogorny, VaniaUniversidade Federal de Santa CatarinaFurtado, André Salvaro2018-07-12T04:03:27Z2018-07-12T04:03:27Z2017info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis142 p.| il., gráfs., tabs.application/pdf352475https://repositorio.ufsc.br/handle/123456789/188076engreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccess2018-07-12T04:03:28Zoai:repositorio.ufsc.br:123456789/188076Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732018-07-12T04:03:28Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Enhancing trajectory similarity measuring
title Enhancing trajectory similarity measuring
spellingShingle Enhancing trajectory similarity measuring
Furtado, André Salvaro
Computação
Programação dinâmica
Trajetória
title_short Enhancing trajectory similarity measuring
title_full Enhancing trajectory similarity measuring
title_fullStr Enhancing trajectory similarity measuring
title_full_unstemmed Enhancing trajectory similarity measuring
title_sort Enhancing trajectory similarity measuring
author Furtado, André Salvaro
author_facet Furtado, André Salvaro
author_role author
dc.contributor.none.fl_str_mv Bogorny, Vania
Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Furtado, André Salvaro
dc.subject.por.fl_str_mv Computação
Programação dinâmica
Trajetória
topic Computação
Programação dinâmica
Trajetória
description Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2017.
publishDate 2017
dc.date.none.fl_str_mv 2017
2018-07-12T04:03:27Z
2018-07-12T04:03:27Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv 352475
https://repositorio.ufsc.br/handle/123456789/188076
identifier_str_mv 352475
url https://repositorio.ufsc.br/handle/123456789/188076
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 142 p.| il., gráfs., tabs.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1808652278567010304