Classicação de séries temporais utilizando diferentes representações de dados e ensembles
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | http://www.teses.usp.br/teses/disponiveis/55/55134/tde-05122017-170029/ |
Resumo: | Dados temporais são ubíquos em quase todas as áreas do conhecimento humano. A área de aprendizado de máquina tem contribuído para a mineração desse tipo de dados com algoritmos para classificação, agrupamento, detecção de anomalias ou exceções e detecção de padrões recorrentes, dentre outros. Tais algoritmos dependem, muitas vezes, de uma função capaz de expressar um conceito de similaridade entre os dados. Um dos mais importantes modelos de classificação, denominado 1-NN, utiliza uma função de distância para comparar uma série temporal de interesse a um conjunto de referência, atribuindo à primeira o rótulo da série de referência mais semelhante. Entretanto, existem situações nas quais os dados temporais são insuficientes para identificar vizinhos de acordo com o conceito associado às classes. Uma possível abordagem é transportar as séries para um domínio de representação no qual atributos mais relevantes para a classificação são mais claros. Por exemplo, uma série temporal pode ser decomposta em componentes periódicas de diferentes frequências e amplitudes. Para muitas aplicações, essas componentes são muito mais significativas na discriminação das classes do que a evolução da série ao longo do tempo. Nesta Tese, emprega-se diversidade de representações e de distâncias para a classificação de séries temporais. Com base na escolha de uma representação de dados adequada para expor as características discriminativas do domínio, pode-se obter classificadores mais fiéis ao conceitoalvo. Para esse fim, promove-se um estudo de domínios de representação de dados temporais, visando identificar como esses domínios podem estabelecer espaços alternativos de decisão. Diferentes modelos do classificador 1-NN são avaliados isoladamente e associados em ensembles de classificadores a fim de se obter classificadores mais robustos. Funções de distância e domínios alternativos de representação são também utilizados neste trabalho para produzir atributos não temporais, denominados atributos de distâncias. Esses atributos refletem conceitos de vizinhança aos exemplos do conjunto de treinamento e podem ser utilizados para treinar modelos de classificação que tipicamente não são eficazes quando treinados com as observações originais. Nesta Tese mostra-se que atributos de distância permitem obter resultados compatíveis com o estado-da-arte. |
id |
USP_ea781200ed21f5d4d983fe5690ac7d45 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-05122017-170029 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Classicação de séries temporais utilizando diferentes representações de dados e ensemblesTime series classification using multiple representations and ensemblesAprendizado de máquinaArtificial intelligenceClassificação de séries temporaisInteligência artificialMachine learningRepresentação de séries temporaisSéries temporaisTime seriesTime series classificationTime series representationDados temporais são ubíquos em quase todas as áreas do conhecimento humano. A área de aprendizado de máquina tem contribuído para a mineração desse tipo de dados com algoritmos para classificação, agrupamento, detecção de anomalias ou exceções e detecção de padrões recorrentes, dentre outros. Tais algoritmos dependem, muitas vezes, de uma função capaz de expressar um conceito de similaridade entre os dados. Um dos mais importantes modelos de classificação, denominado 1-NN, utiliza uma função de distância para comparar uma série temporal de interesse a um conjunto de referência, atribuindo à primeira o rótulo da série de referência mais semelhante. Entretanto, existem situações nas quais os dados temporais são insuficientes para identificar vizinhos de acordo com o conceito associado às classes. Uma possível abordagem é transportar as séries para um domínio de representação no qual atributos mais relevantes para a classificação são mais claros. Por exemplo, uma série temporal pode ser decomposta em componentes periódicas de diferentes frequências e amplitudes. Para muitas aplicações, essas componentes são muito mais significativas na discriminação das classes do que a evolução da série ao longo do tempo. Nesta Tese, emprega-se diversidade de representações e de distâncias para a classificação de séries temporais. Com base na escolha de uma representação de dados adequada para expor as características discriminativas do domínio, pode-se obter classificadores mais fiéis ao conceitoalvo. Para esse fim, promove-se um estudo de domínios de representação de dados temporais, visando identificar como esses domínios podem estabelecer espaços alternativos de decisão. Diferentes modelos do classificador 1-NN são avaliados isoladamente e associados em ensembles de classificadores a fim de se obter classificadores mais robustos. Funções de distância e domínios alternativos de representação são também utilizados neste trabalho para produzir atributos não temporais, denominados atributos de distâncias. Esses atributos refletem conceitos de vizinhança aos exemplos do conjunto de treinamento e podem ser utilizados para treinar modelos de classificação que tipicamente não são eficazes quando treinados com as observações originais. Nesta Tese mostra-se que atributos de distância permitem obter resultados compatíveis com o estado-da-arte.Temporal data are ubiquitous in nearly all areas of human knowledge. The research field known as machine learning has contributed to temporal data mining with algorithms for classification, clustering, anomaly or exception detection, and motif detection, among others. These algorithms oftentimes are reliant on a distance function that must be capable of expressing a similarity concept among the data. One of the most important classification models, the 1-NN, employs a distance function when comparing a time series of interest against a reference set, and assigns to the former the label of the most similar reference time series. There are, however, several domains in which the temporal data are insufficient to characterize neighbors according to the concepts associated to the classes. One possible approach to this problem is to transform the time series into a representation domain in which the meaningful attributes for the classifier are more clearly expressed. For instance, a time series may be decomposed into periodic components of different frequency and amplitude values. For several applications, those components are much more meaningful in discriminating the classes than the temporal evolution of the original observations. In this work, we employ diversity of representation and distance functions for the classification of time series. By choosing a data representation that is more suitable to express the discriminating characteristics of the domain, we are able to achieve classification that are more faithful to the target-concept. With this goal in mind, we promote a study of time series representation domains, and we evaluate how such domains can provide alternative decision spaces. Different models of the 1-NN classifier are evaluated both isolated and associated in classification ensembles in order to construct more robust classifiers. We also use distance functions and alternative representation domains in order to extract nontemporal attributes, known as distance features. Distance features reflect neighborhood concepts of the instances to the training samples, and they may be used to induce classification models which are typically not as efficient when trained with the original time series observations. We show that distance features allow for classification results compatible with the state-of-the-art.Biblioteca Digitais de Teses e Dissertações da USPBatista, Gustavo Enrique de Almeida Prado AlvesGiusti, Rafael2017-08-23info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/55/55134/tde-05122017-170029/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2018-07-17T16:38:18Zoai:teses.usp.br:tde-05122017-170029Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212018-07-17T16:38:18Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Classicação de séries temporais utilizando diferentes representações de dados e ensembles Time series classification using multiple representations and ensembles |
title |
Classicação de séries temporais utilizando diferentes representações de dados e ensembles |
spellingShingle |
Classicação de séries temporais utilizando diferentes representações de dados e ensembles Giusti, Rafael Aprendizado de máquina Artificial intelligence Classificação de séries temporais Inteligência artificial Machine learning Representação de séries temporais Séries temporais Time series Time series classification Time series representation |
title_short |
Classicação de séries temporais utilizando diferentes representações de dados e ensembles |
title_full |
Classicação de séries temporais utilizando diferentes representações de dados e ensembles |
title_fullStr |
Classicação de séries temporais utilizando diferentes representações de dados e ensembles |
title_full_unstemmed |
Classicação de séries temporais utilizando diferentes representações de dados e ensembles |
title_sort |
Classicação de séries temporais utilizando diferentes representações de dados e ensembles |
author |
Giusti, Rafael |
author_facet |
Giusti, Rafael |
author_role |
author |
dc.contributor.none.fl_str_mv |
Batista, Gustavo Enrique de Almeida Prado Alves |
dc.contributor.author.fl_str_mv |
Giusti, Rafael |
dc.subject.por.fl_str_mv |
Aprendizado de máquina Artificial intelligence Classificação de séries temporais Inteligência artificial Machine learning Representação de séries temporais Séries temporais Time series Time series classification Time series representation |
topic |
Aprendizado de máquina Artificial intelligence Classificação de séries temporais Inteligência artificial Machine learning Representação de séries temporais Séries temporais Time series Time series classification Time series representation |
description |
Dados temporais são ubíquos em quase todas as áreas do conhecimento humano. A área de aprendizado de máquina tem contribuído para a mineração desse tipo de dados com algoritmos para classificação, agrupamento, detecção de anomalias ou exceções e detecção de padrões recorrentes, dentre outros. Tais algoritmos dependem, muitas vezes, de uma função capaz de expressar um conceito de similaridade entre os dados. Um dos mais importantes modelos de classificação, denominado 1-NN, utiliza uma função de distância para comparar uma série temporal de interesse a um conjunto de referência, atribuindo à primeira o rótulo da série de referência mais semelhante. Entretanto, existem situações nas quais os dados temporais são insuficientes para identificar vizinhos de acordo com o conceito associado às classes. Uma possível abordagem é transportar as séries para um domínio de representação no qual atributos mais relevantes para a classificação são mais claros. Por exemplo, uma série temporal pode ser decomposta em componentes periódicas de diferentes frequências e amplitudes. Para muitas aplicações, essas componentes são muito mais significativas na discriminação das classes do que a evolução da série ao longo do tempo. Nesta Tese, emprega-se diversidade de representações e de distâncias para a classificação de séries temporais. Com base na escolha de uma representação de dados adequada para expor as características discriminativas do domínio, pode-se obter classificadores mais fiéis ao conceitoalvo. Para esse fim, promove-se um estudo de domínios de representação de dados temporais, visando identificar como esses domínios podem estabelecer espaços alternativos de decisão. Diferentes modelos do classificador 1-NN são avaliados isoladamente e associados em ensembles de classificadores a fim de se obter classificadores mais robustos. Funções de distância e domínios alternativos de representação são também utilizados neste trabalho para produzir atributos não temporais, denominados atributos de distâncias. Esses atributos refletem conceitos de vizinhança aos exemplos do conjunto de treinamento e podem ser utilizados para treinar modelos de classificação que tipicamente não são eficazes quando treinados com as observações originais. Nesta Tese mostra-se que atributos de distância permitem obter resultados compatíveis com o estado-da-arte. |
publishDate |
2017 |
dc.date.none.fl_str_mv |
2017-08-23 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://www.teses.usp.br/teses/disponiveis/55/55134/tde-05122017-170029/ |
url |
http://www.teses.usp.br/teses/disponiveis/55/55134/tde-05122017-170029/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256753256792064 |