Aprendizagem eficiente de classificadores sequenciais em padrões longos

Detalhes bibliográficos
Autor(a) principal: Gesse Silva Ferreira de Dafe
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/ESBF-97CJGD
Resumo: Muitas aplicações, tais como extração de informação, detecção de intrusão e reconhecimento de enovelamento de proteínas, podem ser expressas como uma sequência de eventos (ao invés de um conjunto não-ordenado de atributos), ou seja, existe uma relação de ordem entre os elementos que compõem cada instância presente nos dados. Essas aplicações podem ser modeladas como problemas de classificação e,nesse caso, o classificador precisa ser construído de forma a ser capaz de capturar tais relações e usá-las como fonte de informação. As principais abordagens para esse problema incluem: (i) a aprendizagem de Modelos Ocultos de Markov, (ii) a exploracão de sequências frequentes extraídas dos dados e (iii) o cálculo de string kernels para Máquinas de Vetores de Suporte (SVMs). Essas abordagens, entretanto, são computacionalmente difíceis e a alta dimensionalidade, típica dos dados sequenciais, representa sérios desafios à viabilidade de tais métodos, em especial se os dados possuem dependências longas (i.e., padrões longos são necessários para modelar os dados). Neste trabalho apresentamos algorítmos que geram classificadores sequenciais de alta eficiência através da exploração dos conceitos de adjacência ou proximidade entre os elementos de uma sequência, a fim de aprimorar a acurácia ou garantir, juntamente com a limitação dinâmica dos tamanhos das sequências enumeradas, um custo de aprendizagem de O(nn), onde n é a dimensão (número de atributos) da instância a ser classificada. Nossos algorítmos baseiam-se na enumeração sob demanda de padrões (aproximadamente) contíguos presentes nos dados de treino, usando um método flexível e leve de casamento de padrões e uma estratégia inovadora de enumeração que chamamos desilhuetas de padrões, que fazem com que nossos classificadores sejam rápidos porém robustos mesmo em dados ruidosos. Nossos resultados empíricos, obtidos sobre conjuntos de dados reais, mostram que, na maioria dos casos, nossos calssificadores são mais rápidos que as soluções existentes (em alguns casos, ordens de grandeza mais rápidos) e proporcionam ganhos significativos de acurácia.
id UFMG_3f089c21cda42ea0e10b998288bdee82
oai_identifier_str oai:repositorio.ufmg.br:1843/ESBF-97CJGD
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Adriano Alonso VelosoWagner Meira JuniorNivio ZivianiMohammed Javeed ZakiGesse Silva Ferreira de Dafe2019-08-09T12:50:57Z2019-08-09T12:50:57Z2013-01-07http://hdl.handle.net/1843/ESBF-97CJGDMuitas aplicações, tais como extração de informação, detecção de intrusão e reconhecimento de enovelamento de proteínas, podem ser expressas como uma sequência de eventos (ao invés de um conjunto não-ordenado de atributos), ou seja, existe uma relação de ordem entre os elementos que compõem cada instância presente nos dados. Essas aplicações podem ser modeladas como problemas de classificação e,nesse caso, o classificador precisa ser construído de forma a ser capaz de capturar tais relações e usá-las como fonte de informação. As principais abordagens para esse problema incluem: (i) a aprendizagem de Modelos Ocultos de Markov, (ii) a exploracão de sequências frequentes extraídas dos dados e (iii) o cálculo de string kernels para Máquinas de Vetores de Suporte (SVMs). Essas abordagens, entretanto, são computacionalmente difíceis e a alta dimensionalidade, típica dos dados sequenciais, representa sérios desafios à viabilidade de tais métodos, em especial se os dados possuem dependências longas (i.e., padrões longos são necessários para modelar os dados). Neste trabalho apresentamos algorítmos que geram classificadores sequenciais de alta eficiência através da exploração dos conceitos de adjacência ou proximidade entre os elementos de uma sequência, a fim de aprimorar a acurácia ou garantir, juntamente com a limitação dinâmica dos tamanhos das sequências enumeradas, um custo de aprendizagem de O(nn), onde n é a dimensão (número de atributos) da instância a ser classificada. Nossos algorítmos baseiam-se na enumeração sob demanda de padrões (aproximadamente) contíguos presentes nos dados de treino, usando um método flexível e leve de casamento de padrões e uma estratégia inovadora de enumeração que chamamos desilhuetas de padrões, que fazem com que nossos classificadores sejam rápidos porém robustos mesmo em dados ruidosos. Nossos resultados empíricos, obtidos sobre conjuntos de dados reais, mostram que, na maioria dos casos, nossos calssificadores são mais rápidos que as soluções existentes (em alguns casos, ordens de grandeza mais rápidos) e proporcionam ganhos significativos de acurácia.Many applications, such as information extraction, intrusion detection and protein fold recognition, can be expressed as sequences of events or elements (rather than unordered sets of features), that is, there is an order dependence among the elements composing each data instance. These applications may be modeled as classification problems, and in this case the classifier must be built using sequential interactions among the elements, so that the ordering relationship among them is properly captured. Dominant approaches to this problem include: (i) learning Hidden Markov Models, (ii) exploiting frequent sequences extracted from the data and (iii) computing string kernels for Support Vector Machines. Such approaches, however, are computationally hard, and the typically high-dimensional nature of sequential data poses serious challenges to their feasibility, especially if the data shows long range dependencies (i.e., long patterns are necessary in order to model the data). In this paper we introduce algorithms that build highly effective sequential classifiers by exploiting adjacency or proximity information, either to improve classification accuracy or to ensure O(nn) learning cost, where n is the dimension (number of features) comprising a given test instance. Our algorithms are based on enumerating (approximately) contiguous sequences from the training data on a demand-driven basis, exploiting a lightweight and flexible sequence matching function and an innovative sequence enumeration strategy called pattern silhouettes, which make our classifiers fast but also robust even in noisy data. Our empirical results on actual datasets show that, in most of the cases, our classifiers are faster than existing solutions (sometimes orders of magnitude faster), also providing significant accuracy improvements in most of the evaluated cases.Universidade Federal de Minas GeraisUFMGComputaçãoMineração de dados (Computação)Ciência da ComputaçãoAprendizagem eficiente de classificadores sequenciais em padrões longosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALgess_daf_.pdfapplication/pdf1661976https://repositorio.ufmg.br/bitstream/1843/ESBF-97CJGD/1/gess_daf_.pdf73a1e20df3631448e7d8fc39aa32ef52MD51TEXTgess_daf_.pdf.txtgess_daf_.pdf.txtExtracted texttext/plain85082https://repositorio.ufmg.br/bitstream/1843/ESBF-97CJGD/2/gess_daf_.pdf.txte12087b20c1246190d77161ce9537f64MD521843/ESBF-97CJGD2019-11-14 04:55:48.152oai:repositorio.ufmg.br:1843/ESBF-97CJGDRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T07:55:48Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Aprendizagem eficiente de classificadores sequenciais em padrões longos
title Aprendizagem eficiente de classificadores sequenciais em padrões longos
spellingShingle Aprendizagem eficiente de classificadores sequenciais em padrões longos
Gesse Silva Ferreira de Dafe
Ciência da Computação
Computação
Mineração de dados (Computação)
title_short Aprendizagem eficiente de classificadores sequenciais em padrões longos
title_full Aprendizagem eficiente de classificadores sequenciais em padrões longos
title_fullStr Aprendizagem eficiente de classificadores sequenciais em padrões longos
title_full_unstemmed Aprendizagem eficiente de classificadores sequenciais em padrões longos
title_sort Aprendizagem eficiente de classificadores sequenciais em padrões longos
author Gesse Silva Ferreira de Dafe
author_facet Gesse Silva Ferreira de Dafe
author_role author
dc.contributor.advisor1.fl_str_mv Adriano Alonso Veloso
dc.contributor.referee1.fl_str_mv Wagner Meira Junior
dc.contributor.referee2.fl_str_mv Nivio Ziviani
dc.contributor.referee3.fl_str_mv Mohammed Javeed Zaki
dc.contributor.author.fl_str_mv Gesse Silva Ferreira de Dafe
contributor_str_mv Adriano Alonso Veloso
Wagner Meira Junior
Nivio Ziviani
Mohammed Javeed Zaki
dc.subject.por.fl_str_mv Ciência da Computação
topic Ciência da Computação
Computação
Mineração de dados (Computação)
dc.subject.other.pt_BR.fl_str_mv Computação
Mineração de dados (Computação)
description Muitas aplicações, tais como extração de informação, detecção de intrusão e reconhecimento de enovelamento de proteínas, podem ser expressas como uma sequência de eventos (ao invés de um conjunto não-ordenado de atributos), ou seja, existe uma relação de ordem entre os elementos que compõem cada instância presente nos dados. Essas aplicações podem ser modeladas como problemas de classificação e,nesse caso, o classificador precisa ser construído de forma a ser capaz de capturar tais relações e usá-las como fonte de informação. As principais abordagens para esse problema incluem: (i) a aprendizagem de Modelos Ocultos de Markov, (ii) a exploracão de sequências frequentes extraídas dos dados e (iii) o cálculo de string kernels para Máquinas de Vetores de Suporte (SVMs). Essas abordagens, entretanto, são computacionalmente difíceis e a alta dimensionalidade, típica dos dados sequenciais, representa sérios desafios à viabilidade de tais métodos, em especial se os dados possuem dependências longas (i.e., padrões longos são necessários para modelar os dados). Neste trabalho apresentamos algorítmos que geram classificadores sequenciais de alta eficiência através da exploração dos conceitos de adjacência ou proximidade entre os elementos de uma sequência, a fim de aprimorar a acurácia ou garantir, juntamente com a limitação dinâmica dos tamanhos das sequências enumeradas, um custo de aprendizagem de O(nn), onde n é a dimensão (número de atributos) da instância a ser classificada. Nossos algorítmos baseiam-se na enumeração sob demanda de padrões (aproximadamente) contíguos presentes nos dados de treino, usando um método flexível e leve de casamento de padrões e uma estratégia inovadora de enumeração que chamamos desilhuetas de padrões, que fazem com que nossos classificadores sejam rápidos porém robustos mesmo em dados ruidosos. Nossos resultados empíricos, obtidos sobre conjuntos de dados reais, mostram que, na maioria dos casos, nossos calssificadores são mais rápidos que as soluções existentes (em alguns casos, ordens de grandeza mais rápidos) e proporcionam ganhos significativos de acurácia.
publishDate 2013
dc.date.issued.fl_str_mv 2013-01-07
dc.date.accessioned.fl_str_mv 2019-08-09T12:50:57Z
dc.date.available.fl_str_mv 2019-08-09T12:50:57Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/ESBF-97CJGD
url http://hdl.handle.net/1843/ESBF-97CJGD
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/ESBF-97CJGD/1/gess_daf_.pdf
https://repositorio.ufmg.br/bitstream/1843/ESBF-97CJGD/2/gess_daf_.pdf.txt
bitstream.checksum.fl_str_mv 73a1e20df3631448e7d8fc39aa32ef52
e12087b20c1246190d77161ce9537f64
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589168562962432