Detecção de outliers baseada em caminhada determinística do turista
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | http://www.teses.usp.br/teses/disponiveis/59/59143/tde-14062018-223903/ |
Resumo: | Detecção de outliers é uma tarefa fundamental para descoberta de conhecimento em mineração de dados. Cujo objetivo é identificar as amostras de dados que desviam acentuadamente dos padrões apresentados num conjunto de dados. Neste trabalho, apresentamos uma nova técnica de detecção de outliers baseada em caminhada determinística do turista. Especificamente um caminhante é iniciado para cada exemplar de dado, variando-se o tamanho da memória, assim, um exemplar recebe uma alta pontuação de outlier ao participar em poucos atratores, enquanto que receberá uma baixa pontuação no caso de participar numa grande quantidade de atratores. Os resultados experimentais em cenários artificiais e reais evidenciaram um bom desempenho do método proposto. Em comparação com os métodos clássicos, o método proposto apresenta as seguintes características salientes: 1) Identifica os outliers através da determinação de estruturas no espaço de dados ao invés de considerar apenas características físicas, como distância, similaridade e densidade. 2) É capaz de detectar outliers internos, situados em regiões entre dois ou mais agrupamentos. 3) Com a variação do valor de memória, os caminhantes conseguem extrair tanto características locais, quanto globais do conjunto de dados. 4) O método proposto é determinístico, não exigindo diversas execuções (em contraste às técnicas estocásticas). Além disso, neste trabalho caracterizamos, pela primeira vez, que as dinâmicas exibidas pela caminhada do turista podem gerar atratores complexos, com diversos cruzamentos. Sendo que estes podem revelar estruturas ainda mais detalhadas e consequentemente melhorar a detecção dos outliers. |
id |
USP_319da59b6165136c0747f6719b886c18 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-14062018-223903 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Detecção de outliers baseada em caminhada determinística do turistaOutlier detection based on deterministic tourist walkAttractor; Critical memory size; Crossing-attractor; Internal outlier; Memory size; Outlier; Tourist walkComputação bioinspirada; Descoberta de conhecimento; Detecção de outlier; Mineração de dados; Reconhecimento de padrõesDetecção de outliers é uma tarefa fundamental para descoberta de conhecimento em mineração de dados. Cujo objetivo é identificar as amostras de dados que desviam acentuadamente dos padrões apresentados num conjunto de dados. Neste trabalho, apresentamos uma nova técnica de detecção de outliers baseada em caminhada determinística do turista. Especificamente um caminhante é iniciado para cada exemplar de dado, variando-se o tamanho da memória, assim, um exemplar recebe uma alta pontuação de outlier ao participar em poucos atratores, enquanto que receberá uma baixa pontuação no caso de participar numa grande quantidade de atratores. Os resultados experimentais em cenários artificiais e reais evidenciaram um bom desempenho do método proposto. Em comparação com os métodos clássicos, o método proposto apresenta as seguintes características salientes: 1) Identifica os outliers através da determinação de estruturas no espaço de dados ao invés de considerar apenas características físicas, como distância, similaridade e densidade. 2) É capaz de detectar outliers internos, situados em regiões entre dois ou mais agrupamentos. 3) Com a variação do valor de memória, os caminhantes conseguem extrair tanto características locais, quanto globais do conjunto de dados. 4) O método proposto é determinístico, não exigindo diversas execuções (em contraste às técnicas estocásticas). Além disso, neste trabalho caracterizamos, pela primeira vez, que as dinâmicas exibidas pela caminhada do turista podem gerar atratores complexos, com diversos cruzamentos. Sendo que estes podem revelar estruturas ainda mais detalhadas e consequentemente melhorar a detecção dos outliers.Outlier detection is a fundamental task for knowledge discovery in data mining. It aims to detect data items that deviate from the general pattern of a given data set. In this work, we present a new outlier detection technique using tourist walks. Specifically, starting from each data sample and varying the memory size, a data sample gets a higher outlier score if it participates in few tourist walk attractors, while it gets a low score if it participates in a large number of attractors. Experimental results on artificial and real data sets show good performance of the proposed method. In comparison to classical methods, the proposed one shows the following salient features: 1) It finds out outliers by identifying the structure of the input data set instead of considering only physical features, such as distance, similarity or density. 2) It can detect not only external outliers as classical methods do, but also internal outliers staying among various normal data groups. 3) By varying the memory size, the tourist walks can characterize both local and global structures of the data set. 4) The proposed method is a deterministic technique. Therefore, only one run is sufficient, in contrast to stochastic techniques, which require many runs. Moreover, in this work, we find, for the first time, that tourist walks can generate complex attractors in various crossing shapes. Such complex attractors reveal data structures in more details. Consequently, it can improve the outlier detection.Biblioteca Digitais de Teses e Dissertações da USPLiang, ZhaoSilva Filho, Antonio Carlos Roque daRodrigues, Rafael Delalibera2018-04-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/59/59143/tde-14062018-223903/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2018-10-03T01:45:28Zoai:teses.usp.br:tde-14062018-223903Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212018-10-03T01:45:28Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Detecção de outliers baseada em caminhada determinística do turista Outlier detection based on deterministic tourist walk |
title |
Detecção de outliers baseada em caminhada determinística do turista |
spellingShingle |
Detecção de outliers baseada em caminhada determinística do turista Rodrigues, Rafael Delalibera Attractor; Critical memory size; Crossing-attractor; Internal outlier; Memory size; Outlier; Tourist walk Computação bioinspirada; Descoberta de conhecimento; Detecção de outlier; Mineração de dados; Reconhecimento de padrões |
title_short |
Detecção de outliers baseada em caminhada determinística do turista |
title_full |
Detecção de outliers baseada em caminhada determinística do turista |
title_fullStr |
Detecção de outliers baseada em caminhada determinística do turista |
title_full_unstemmed |
Detecção de outliers baseada em caminhada determinística do turista |
title_sort |
Detecção de outliers baseada em caminhada determinística do turista |
author |
Rodrigues, Rafael Delalibera |
author_facet |
Rodrigues, Rafael Delalibera |
author_role |
author |
dc.contributor.none.fl_str_mv |
Liang, Zhao Silva Filho, Antonio Carlos Roque da |
dc.contributor.author.fl_str_mv |
Rodrigues, Rafael Delalibera |
dc.subject.por.fl_str_mv |
Attractor; Critical memory size; Crossing-attractor; Internal outlier; Memory size; Outlier; Tourist walk Computação bioinspirada; Descoberta de conhecimento; Detecção de outlier; Mineração de dados; Reconhecimento de padrões |
topic |
Attractor; Critical memory size; Crossing-attractor; Internal outlier; Memory size; Outlier; Tourist walk Computação bioinspirada; Descoberta de conhecimento; Detecção de outlier; Mineração de dados; Reconhecimento de padrões |
description |
Detecção de outliers é uma tarefa fundamental para descoberta de conhecimento em mineração de dados. Cujo objetivo é identificar as amostras de dados que desviam acentuadamente dos padrões apresentados num conjunto de dados. Neste trabalho, apresentamos uma nova técnica de detecção de outliers baseada em caminhada determinística do turista. Especificamente um caminhante é iniciado para cada exemplar de dado, variando-se o tamanho da memória, assim, um exemplar recebe uma alta pontuação de outlier ao participar em poucos atratores, enquanto que receberá uma baixa pontuação no caso de participar numa grande quantidade de atratores. Os resultados experimentais em cenários artificiais e reais evidenciaram um bom desempenho do método proposto. Em comparação com os métodos clássicos, o método proposto apresenta as seguintes características salientes: 1) Identifica os outliers através da determinação de estruturas no espaço de dados ao invés de considerar apenas características físicas, como distância, similaridade e densidade. 2) É capaz de detectar outliers internos, situados em regiões entre dois ou mais agrupamentos. 3) Com a variação do valor de memória, os caminhantes conseguem extrair tanto características locais, quanto globais do conjunto de dados. 4) O método proposto é determinístico, não exigindo diversas execuções (em contraste às técnicas estocásticas). Além disso, neste trabalho caracterizamos, pela primeira vez, que as dinâmicas exibidas pela caminhada do turista podem gerar atratores complexos, com diversos cruzamentos. Sendo que estes podem revelar estruturas ainda mais detalhadas e consequentemente melhorar a detecção dos outliers. |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018-04-03 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://www.teses.usp.br/teses/disponiveis/59/59143/tde-14062018-223903/ |
url |
http://www.teses.usp.br/teses/disponiveis/59/59143/tde-14062018-223903/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256966204751872 |