Aprendizagem eficiente de classificadores sequenciais em padrões longos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2013 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFMG |
Texto Completo: | http://hdl.handle.net/1843/ESBF-97CJGD |
Resumo: | Muitas aplicações, tais como extração de informação, detecção de intrusão e reconhecimento de enovelamento de proteínas, podem ser expressas como uma sequência de eventos (ao invés de um conjunto não-ordenado de atributos), ou seja, existe uma relação de ordem entre os elementos que compõem cada instância presente nos dados. Essas aplicações podem ser modeladas como problemas de classificação e,nesse caso, o classificador precisa ser construído de forma a ser capaz de capturar tais relações e usá-las como fonte de informação. As principais abordagens para esse problema incluem: (i) a aprendizagem de Modelos Ocultos de Markov, (ii) a exploracão de sequências frequentes extraídas dos dados e (iii) o cálculo de string kernels para Máquinas de Vetores de Suporte (SVMs). Essas abordagens, entretanto, são computacionalmente difíceis e a alta dimensionalidade, típica dos dados sequenciais, representa sérios desafios à viabilidade de tais métodos, em especial se os dados possuem dependências longas (i.e., padrões longos são necessários para modelar os dados). Neste trabalho apresentamos algorítmos que geram classificadores sequenciais de alta eficiência através da exploração dos conceitos de adjacência ou proximidade entre os elementos de uma sequência, a fim de aprimorar a acurácia ou garantir, juntamente com a limitação dinâmica dos tamanhos das sequências enumeradas, um custo de aprendizagem de O(nn), onde n é a dimensão (número de atributos) da instância a ser classificada. Nossos algorítmos baseiam-se na enumeração sob demanda de padrões (aproximadamente) contíguos presentes nos dados de treino, usando um método flexível e leve de casamento de padrões e uma estratégia inovadora de enumeração que chamamos desilhuetas de padrões, que fazem com que nossos classificadores sejam rápidos porém robustos mesmo em dados ruidosos. Nossos resultados empíricos, obtidos sobre conjuntos de dados reais, mostram que, na maioria dos casos, nossos calssificadores são mais rápidos que as soluções existentes (em alguns casos, ordens de grandeza mais rápidos) e proporcionam ganhos significativos de acurácia. |
id |
UFMG_3f089c21cda42ea0e10b998288bdee82 |
---|---|
oai_identifier_str |
oai:repositorio.ufmg.br:1843/ESBF-97CJGD |
network_acronym_str |
UFMG |
network_name_str |
Repositório Institucional da UFMG |
repository_id_str |
|
spelling |
Adriano Alonso VelosoWagner Meira JuniorNivio ZivianiMohammed Javeed ZakiGesse Silva Ferreira de Dafe2019-08-09T12:50:57Z2019-08-09T12:50:57Z2013-01-07http://hdl.handle.net/1843/ESBF-97CJGDMuitas aplicações, tais como extração de informação, detecção de intrusão e reconhecimento de enovelamento de proteínas, podem ser expressas como uma sequência de eventos (ao invés de um conjunto não-ordenado de atributos), ou seja, existe uma relação de ordem entre os elementos que compõem cada instância presente nos dados. Essas aplicações podem ser modeladas como problemas de classificação e,nesse caso, o classificador precisa ser construído de forma a ser capaz de capturar tais relações e usá-las como fonte de informação. As principais abordagens para esse problema incluem: (i) a aprendizagem de Modelos Ocultos de Markov, (ii) a exploracão de sequências frequentes extraídas dos dados e (iii) o cálculo de string kernels para Máquinas de Vetores de Suporte (SVMs). Essas abordagens, entretanto, são computacionalmente difíceis e a alta dimensionalidade, típica dos dados sequenciais, representa sérios desafios à viabilidade de tais métodos, em especial se os dados possuem dependências longas (i.e., padrões longos são necessários para modelar os dados). Neste trabalho apresentamos algorítmos que geram classificadores sequenciais de alta eficiência através da exploração dos conceitos de adjacência ou proximidade entre os elementos de uma sequência, a fim de aprimorar a acurácia ou garantir, juntamente com a limitação dinâmica dos tamanhos das sequências enumeradas, um custo de aprendizagem de O(nn), onde n é a dimensão (número de atributos) da instância a ser classificada. Nossos algorítmos baseiam-se na enumeração sob demanda de padrões (aproximadamente) contíguos presentes nos dados de treino, usando um método flexível e leve de casamento de padrões e uma estratégia inovadora de enumeração que chamamos desilhuetas de padrões, que fazem com que nossos classificadores sejam rápidos porém robustos mesmo em dados ruidosos. Nossos resultados empíricos, obtidos sobre conjuntos de dados reais, mostram que, na maioria dos casos, nossos calssificadores são mais rápidos que as soluções existentes (em alguns casos, ordens de grandeza mais rápidos) e proporcionam ganhos significativos de acurácia.Many applications, such as information extraction, intrusion detection and protein fold recognition, can be expressed as sequences of events or elements (rather than unordered sets of features), that is, there is an order dependence among the elements composing each data instance. These applications may be modeled as classification problems, and in this case the classifier must be built using sequential interactions among the elements, so that the ordering relationship among them is properly captured. Dominant approaches to this problem include: (i) learning Hidden Markov Models, (ii) exploiting frequent sequences extracted from the data and (iii) computing string kernels for Support Vector Machines. Such approaches, however, are computationally hard, and the typically high-dimensional nature of sequential data poses serious challenges to their feasibility, especially if the data shows long range dependencies (i.e., long patterns are necessary in order to model the data). In this paper we introduce algorithms that build highly effective sequential classifiers by exploiting adjacency or proximity information, either to improve classification accuracy or to ensure O(nn) learning cost, where n is the dimension (number of features) comprising a given test instance. Our algorithms are based on enumerating (approximately) contiguous sequences from the training data on a demand-driven basis, exploiting a lightweight and flexible sequence matching function and an innovative sequence enumeration strategy called pattern silhouettes, which make our classifiers fast but also robust even in noisy data. Our empirical results on actual datasets show that, in most of the cases, our classifiers are faster than existing solutions (sometimes orders of magnitude faster), also providing significant accuracy improvements in most of the evaluated cases.Universidade Federal de Minas GeraisUFMGComputaçãoMineração de dados (Computação)Ciência da ComputaçãoAprendizagem eficiente de classificadores sequenciais em padrões longosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALgess_daf_.pdfapplication/pdf1661976https://repositorio.ufmg.br/bitstream/1843/ESBF-97CJGD/1/gess_daf_.pdf73a1e20df3631448e7d8fc39aa32ef52MD51TEXTgess_daf_.pdf.txtgess_daf_.pdf.txtExtracted texttext/plain85082https://repositorio.ufmg.br/bitstream/1843/ESBF-97CJGD/2/gess_daf_.pdf.txte12087b20c1246190d77161ce9537f64MD521843/ESBF-97CJGD2019-11-14 04:55:48.152oai:repositorio.ufmg.br:1843/ESBF-97CJGDRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T07:55:48Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.pt_BR.fl_str_mv |
Aprendizagem eficiente de classificadores sequenciais em padrões longos |
title |
Aprendizagem eficiente de classificadores sequenciais em padrões longos |
spellingShingle |
Aprendizagem eficiente de classificadores sequenciais em padrões longos Gesse Silva Ferreira de Dafe Ciência da Computação Computação Mineração de dados (Computação) |
title_short |
Aprendizagem eficiente de classificadores sequenciais em padrões longos |
title_full |
Aprendizagem eficiente de classificadores sequenciais em padrões longos |
title_fullStr |
Aprendizagem eficiente de classificadores sequenciais em padrões longos |
title_full_unstemmed |
Aprendizagem eficiente de classificadores sequenciais em padrões longos |
title_sort |
Aprendizagem eficiente de classificadores sequenciais em padrões longos |
author |
Gesse Silva Ferreira de Dafe |
author_facet |
Gesse Silva Ferreira de Dafe |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Adriano Alonso Veloso |
dc.contributor.referee1.fl_str_mv |
Wagner Meira Junior |
dc.contributor.referee2.fl_str_mv |
Nivio Ziviani |
dc.contributor.referee3.fl_str_mv |
Mohammed Javeed Zaki |
dc.contributor.author.fl_str_mv |
Gesse Silva Ferreira de Dafe |
contributor_str_mv |
Adriano Alonso Veloso Wagner Meira Junior Nivio Ziviani Mohammed Javeed Zaki |
dc.subject.por.fl_str_mv |
Ciência da Computação |
topic |
Ciência da Computação Computação Mineração de dados (Computação) |
dc.subject.other.pt_BR.fl_str_mv |
Computação Mineração de dados (Computação) |
description |
Muitas aplicações, tais como extração de informação, detecção de intrusão e reconhecimento de enovelamento de proteínas, podem ser expressas como uma sequência de eventos (ao invés de um conjunto não-ordenado de atributos), ou seja, existe uma relação de ordem entre os elementos que compõem cada instância presente nos dados. Essas aplicações podem ser modeladas como problemas de classificação e,nesse caso, o classificador precisa ser construído de forma a ser capaz de capturar tais relações e usá-las como fonte de informação. As principais abordagens para esse problema incluem: (i) a aprendizagem de Modelos Ocultos de Markov, (ii) a exploracão de sequências frequentes extraídas dos dados e (iii) o cálculo de string kernels para Máquinas de Vetores de Suporte (SVMs). Essas abordagens, entretanto, são computacionalmente difíceis e a alta dimensionalidade, típica dos dados sequenciais, representa sérios desafios à viabilidade de tais métodos, em especial se os dados possuem dependências longas (i.e., padrões longos são necessários para modelar os dados). Neste trabalho apresentamos algorítmos que geram classificadores sequenciais de alta eficiência através da exploração dos conceitos de adjacência ou proximidade entre os elementos de uma sequência, a fim de aprimorar a acurácia ou garantir, juntamente com a limitação dinâmica dos tamanhos das sequências enumeradas, um custo de aprendizagem de O(nn), onde n é a dimensão (número de atributos) da instância a ser classificada. Nossos algorítmos baseiam-se na enumeração sob demanda de padrões (aproximadamente) contíguos presentes nos dados de treino, usando um método flexível e leve de casamento de padrões e uma estratégia inovadora de enumeração que chamamos desilhuetas de padrões, que fazem com que nossos classificadores sejam rápidos porém robustos mesmo em dados ruidosos. Nossos resultados empíricos, obtidos sobre conjuntos de dados reais, mostram que, na maioria dos casos, nossos calssificadores são mais rápidos que as soluções existentes (em alguns casos, ordens de grandeza mais rápidos) e proporcionam ganhos significativos de acurácia. |
publishDate |
2013 |
dc.date.issued.fl_str_mv |
2013-01-07 |
dc.date.accessioned.fl_str_mv |
2019-08-09T12:50:57Z |
dc.date.available.fl_str_mv |
2019-08-09T12:50:57Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1843/ESBF-97CJGD |
url |
http://hdl.handle.net/1843/ESBF-97CJGD |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.publisher.initials.fl_str_mv |
UFMG |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Repositório Institucional da UFMG |
collection |
Repositório Institucional da UFMG |
bitstream.url.fl_str_mv |
https://repositorio.ufmg.br/bitstream/1843/ESBF-97CJGD/1/gess_daf_.pdf https://repositorio.ufmg.br/bitstream/1843/ESBF-97CJGD/2/gess_daf_.pdf.txt |
bitstream.checksum.fl_str_mv |
73a1e20df3631448e7d8fc39aa32ef52 e12087b20c1246190d77161ce9537f64 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
|
_version_ |
1803589168562962432 |