Monitoramento de transições em agrupamento de fluxos de dados

Lima, Afonso Matheus Sousa

Monitoramento de transições em agrupamento de fluxos de dados

Detalhes bibliográficos
Autor(a) principal:	Lima, Afonso Matheus Sousa
Data de Publicação:	2022
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da USP
Texto Completo:	https://www.teses.usp.br/teses/disponiveis/55/55134/tde-12092022-150759/
Resumo:	A disponibilização de grandes volumes de dados em diferentes áreas do conhecimento impulsiona o desenvolvimento de novas técnicas computacionais para processar massivas quantidades de dados, considerando as limitações de recursos disponíveis e tempo. Em particular, há domínios de problemas em que os dados são gerados e recebidos constantemente, sendo necessário realizar um processamento contínuo para que a análise possa refletir, com maior exatidão possível, o contexto atual dos dados. Os desafios inerentes a esse cenário motivam trabalhos na área de descoberta de conhecimento em fluxos de dados, definidos como sequências potencialmente infinitas de dados que são gerados continuamente, em geral em alta velocidade, com uma grande capacidade evolutiva, ou seja, mudanças ocorrem em seu comportamento ao longo do tempo. Dentre as tarefas de descoberta de conhecimento em fluxos de dados, uma das mais abordadas na literatura é o agrupamento, que engloba tanto o agrupamento de pontos (objetos ou itens de dado provenientes de um ou mais fluxos de dados), quanto o agrupamento de fluxos de dados (ou seja, das próprias fontes geradoras dos fluxos). Embora diversos métodos de agrupamento desenvolvidos para fluxos de dados suportem evolução dos dados e adaptação de grupos, eles normalmente não são capazes de rastrear as mudanças ocorridas nos grupos ao longo do tempo. Entender como e quando os grupos mudam, conforme os fluxos de dados são processados, pode gerar conhecimento adicional relevante para o entendimento do problema, como padrões de mudança e sazonalidade. Esse rastreamento das mudanças em agrupamentos é chamado de monitoramento de transições. A maioria dos métodos presentes na literatura foram concebidos para serem usados em bases de dados convencionais com características temporais, sendo poucos os direcionados para tarefas com fluxos de dados, principalmente as que buscam agrupar os fluxos de dados em si. Por isso, no escopo deste trabalho, foi desenvolvido a técnica CETra (Cluster Evolution Tracker) para monitoramento e detecção de transições que leva em consideração as características das tarefas de agrupamento de fluxos de dados. Essa técnica detecta diversos tipos de transições intra e inter grupos, considera a evolução gradual inerente aos fluxos de dados e é aplicável qualquer algoritmo de agrupamento de fluxos de dados que gere grupos disjuntos não sumarizados. CETra possui complexidade de tempo de processamento linear, o que a torna mais eficiente que métodos correlatos da literatura. A avaliação experimental realizada com dados sintéticos e dados reais mostram que a CETra é até duas vezes mais rápida que o método correlato aplicável a agrupamento de fluxos de dados. Além disso, CETra detecta transições que métodos correlatos não conseguem detectar pois esses não consideram a evolução gradual dos dados. Por fim, o estudo com dados reais junto a um algoritmo de agrupamento de fluxos de dados mostra que CETra é capaz de acompanhar o processamento e formação de novos agrupamentos sem impactar significativamente no tempo geral dessa tarefa.

Metadados do item

id	USP_ef6251a92f21f03b6d9926124342ab68
oai_identifier_str	oai:teses.usp.br:tde-12092022-150759
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str	2721
spelling	Monitoramento de transições em agrupamento de fluxos de dadosCluster Tracking for Clustering of Streaming Data SourcesAgrupamentoCluster trackingClusteringData streamFluxo de dadosMonitoramento de transiçõesA disponibilização de grandes volumes de dados em diferentes áreas do conhecimento impulsiona o desenvolvimento de novas técnicas computacionais para processar massivas quantidades de dados, considerando as limitações de recursos disponíveis e tempo. Em particular, há domínios de problemas em que os dados são gerados e recebidos constantemente, sendo necessário realizar um processamento contínuo para que a análise possa refletir, com maior exatidão possível, o contexto atual dos dados. Os desafios inerentes a esse cenário motivam trabalhos na área de descoberta de conhecimento em fluxos de dados, definidos como sequências potencialmente infinitas de dados que são gerados continuamente, em geral em alta velocidade, com uma grande capacidade evolutiva, ou seja, mudanças ocorrem em seu comportamento ao longo do tempo. Dentre as tarefas de descoberta de conhecimento em fluxos de dados, uma das mais abordadas na literatura é o agrupamento, que engloba tanto o agrupamento de pontos (objetos ou itens de dado provenientes de um ou mais fluxos de dados), quanto o agrupamento de fluxos de dados (ou seja, das próprias fontes geradoras dos fluxos). Embora diversos métodos de agrupamento desenvolvidos para fluxos de dados suportem evolução dos dados e adaptação de grupos, eles normalmente não são capazes de rastrear as mudanças ocorridas nos grupos ao longo do tempo. Entender como e quando os grupos mudam, conforme os fluxos de dados são processados, pode gerar conhecimento adicional relevante para o entendimento do problema, como padrões de mudança e sazonalidade. Esse rastreamento das mudanças em agrupamentos é chamado de monitoramento de transições. A maioria dos métodos presentes na literatura foram concebidos para serem usados em bases de dados convencionais com características temporais, sendo poucos os direcionados para tarefas com fluxos de dados, principalmente as que buscam agrupar os fluxos de dados em si. Por isso, no escopo deste trabalho, foi desenvolvido a técnica CETra (Cluster Evolution Tracker) para monitoramento e detecção de transições que leva em consideração as características das tarefas de agrupamento de fluxos de dados. Essa técnica detecta diversos tipos de transições intra e inter grupos, considera a evolução gradual inerente aos fluxos de dados e é aplicável qualquer algoritmo de agrupamento de fluxos de dados que gere grupos disjuntos não sumarizados. CETra possui complexidade de tempo de processamento linear, o que a torna mais eficiente que métodos correlatos da literatura. A avaliação experimental realizada com dados sintéticos e dados reais mostram que a CETra é até duas vezes mais rápida que o método correlato aplicável a agrupamento de fluxos de dados. Além disso, CETra detecta transições que métodos correlatos não conseguem detectar pois esses não consideram a evolução gradual dos dados. Por fim, o estudo com dados reais junto a um algoritmo de agrupamento de fluxos de dados mostra que CETra é capaz de acompanhar o processamento e formação de novos agrupamentos sem impactar significativamente no tempo geral dessa tarefa.The availability of large volumes of data in different areas of knowledge drives the development of new computational techniques to process massive amounts of data, considering limitations of resources and time. In particular, problem domains where data is constantly generated and received, requiring continuous processing so that the analysis can reflect, as accurately as possible, the current context of the data. The challenges inherent to this scenario motivate work in the area of knowledge discovery in data streams, defined as potentially infinite sequences of data that are generated continuously, generally at high speed, with a great evolutionary capacity, that is, changes occur in their behavior over time. Among the knowledge discovery tasks in data streams, one of the most discussed in the literature is clustering, which encompasses both the clustering of streaming data objects (data items coming from one or more data streams) and the clustering of streaming data sources (the sources generating the streams). While many clustering methods developed for data streams supports data evolution and cluster adaptation, they are typically not able to track changes in clusters over time. Understanding how and when clusters change as data streams are processed can generate additional knowledge relevant to understanding the problem, such as changes patterns and seasonality. This detection of changes in clusters is called cluster tracking. Most methods present in literature were designed to be used in conventional databases, with few being directed to data streams tasks, especially those that seek to cluster streaming data sources. Therefore, in the scope of this work, the CETra (Cluster Evolution Tracker) technique was developed for monitoring and detecting transitions, which takes into account characteristics of streaming data sources clustering tasks. This technique detects different types of intra and intercluster transitions, considers data streams gradual evolution, and any streaming data sources clustering algorithm that generates non-summarized disjoint clusters is applicable. CETra has linear processing time complexity, which makes it more efficient than related methods in the literature. The experimental evaluation carried out with synthetic data and real data shows that CETra is twice as fast as the applicable related method. Furthermore, CETra detects transitions that correlated methods cannot detect because they do not consider the gradual evolution of data. Finally, the study with real data together with a streaming data sources clustering algorithm shows that CETra is able to follow processing and formation of new clusters without significantly impacting tasks overall time.Biblioteca Digitais de Teses e Dissertações da USPSousa, Elaine Parros Machado deLima, Afonso Matheus Sousa2022-07-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-12092022-150759/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2022-09-12T19:59:03Zoai:teses.usp.br:tde-12092022-150759Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212022-09-12T19:59:03Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Monitoramento de transições em agrupamento de fluxos de dados Cluster Tracking for Clustering of Streaming Data Sources
title	Monitoramento de transições em agrupamento de fluxos de dados
spellingShingle	Monitoramento de transições em agrupamento de fluxos de dados Lima, Afonso Matheus Sousa Agrupamento Cluster tracking Clustering Data stream Fluxo de dados Monitoramento de transições
title_short	Monitoramento de transições em agrupamento de fluxos de dados
title_full	Monitoramento de transições em agrupamento de fluxos de dados
title_fullStr	Monitoramento de transições em agrupamento de fluxos de dados
title_full_unstemmed	Monitoramento de transições em agrupamento de fluxos de dados
title_sort	Monitoramento de transições em agrupamento de fluxos de dados
author	Lima, Afonso Matheus Sousa
author_facet	Lima, Afonso Matheus Sousa
author_role	author
dc.contributor.none.fl_str_mv	Sousa, Elaine Parros Machado de
dc.contributor.author.fl_str_mv	Lima, Afonso Matheus Sousa
dc.subject.por.fl_str_mv	Agrupamento Cluster tracking Clustering Data stream Fluxo de dados Monitoramento de transições
topic	Agrupamento Cluster tracking Clustering Data stream Fluxo de dados Monitoramento de transições
description	A disponibilização de grandes volumes de dados em diferentes áreas do conhecimento impulsiona o desenvolvimento de novas técnicas computacionais para processar massivas quantidades de dados, considerando as limitações de recursos disponíveis e tempo. Em particular, há domínios de problemas em que os dados são gerados e recebidos constantemente, sendo necessário realizar um processamento contínuo para que a análise possa refletir, com maior exatidão possível, o contexto atual dos dados. Os desafios inerentes a esse cenário motivam trabalhos na área de descoberta de conhecimento em fluxos de dados, definidos como sequências potencialmente infinitas de dados que são gerados continuamente, em geral em alta velocidade, com uma grande capacidade evolutiva, ou seja, mudanças ocorrem em seu comportamento ao longo do tempo. Dentre as tarefas de descoberta de conhecimento em fluxos de dados, uma das mais abordadas na literatura é o agrupamento, que engloba tanto o agrupamento de pontos (objetos ou itens de dado provenientes de um ou mais fluxos de dados), quanto o agrupamento de fluxos de dados (ou seja, das próprias fontes geradoras dos fluxos). Embora diversos métodos de agrupamento desenvolvidos para fluxos de dados suportem evolução dos dados e adaptação de grupos, eles normalmente não são capazes de rastrear as mudanças ocorridas nos grupos ao longo do tempo. Entender como e quando os grupos mudam, conforme os fluxos de dados são processados, pode gerar conhecimento adicional relevante para o entendimento do problema, como padrões de mudança e sazonalidade. Esse rastreamento das mudanças em agrupamentos é chamado de monitoramento de transições. A maioria dos métodos presentes na literatura foram concebidos para serem usados em bases de dados convencionais com características temporais, sendo poucos os direcionados para tarefas com fluxos de dados, principalmente as que buscam agrupar os fluxos de dados em si. Por isso, no escopo deste trabalho, foi desenvolvido a técnica CETra (Cluster Evolution Tracker) para monitoramento e detecção de transições que leva em consideração as características das tarefas de agrupamento de fluxos de dados. Essa técnica detecta diversos tipos de transições intra e inter grupos, considera a evolução gradual inerente aos fluxos de dados e é aplicável qualquer algoritmo de agrupamento de fluxos de dados que gere grupos disjuntos não sumarizados. CETra possui complexidade de tempo de processamento linear, o que a torna mais eficiente que métodos correlatos da literatura. A avaliação experimental realizada com dados sintéticos e dados reais mostram que a CETra é até duas vezes mais rápida que o método correlato aplicável a agrupamento de fluxos de dados. Além disso, CETra detecta transições que métodos correlatos não conseguem detectar pois esses não consideram a evolução gradual dos dados. Por fim, o estudo com dados reais junto a um algoritmo de agrupamento de fluxos de dados mostra que CETra é capaz de acompanhar o processamento e formação de novos agrupamentos sem impactar significativamente no tempo geral dessa tarefa.
publishDate	2022
dc.date.none.fl_str_mv	2022-07-11
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/55/55134/tde-12092022-150759/
url	https://www.teses.usp.br/teses/disponiveis/55/55134/tde-12092022-150759/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1815256993137426432

Monitoramento de transições em agrupamento de fluxos de dados

Registros relacionados