Aprendizagem eficiente de classificadores sequenciais em padrões longos

Gesse Silva Ferreira de Dafe

Aprendizagem eficiente de classificadores sequenciais em padrões longos

Detalhes bibliográficos
Autor(a) principal:	Gesse Silva Ferreira de Dafe
Data de Publicação:	2013
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFMG
Texto Completo:	http://hdl.handle.net/1843/ESBF-97CJGD
Resumo:	Muitas aplicações, tais como extração de informação, detecção de intrusão e reconhecimento de enovelamento de proteínas, podem ser expressas como uma sequência de eventos (ao invés de um conjunto não-ordenado de atributos), ou seja, existe uma relação de ordem entre os elementos que compõem cada instância presente nos dados. Essas aplicações podem ser modeladas como problemas de classificação e,nesse caso, o classificador precisa ser construído de forma a ser capaz de capturar tais relações e usá-las como fonte de informação. As principais abordagens para esse problema incluem: (i) a aprendizagem de Modelos Ocultos de Markov, (ii) a exploracão de sequências frequentes extraídas dos dados e (iii) o cálculo de string kernels para Máquinas de Vetores de Suporte (SVMs). Essas abordagens, entretanto, são computacionalmente difíceis e a alta dimensionalidade, típica dos dados sequenciais, representa sérios desafios à viabilidade de tais métodos, em especial se os dados possuem dependências longas (i.e., padrões longos são necessários para modelar os dados). Neste trabalho apresentamos algorítmos que geram classificadores sequenciais de alta eficiência através da exploração dos conceitos de adjacência ou proximidade entre os elementos de uma sequência, a fim de aprimorar a acurácia ou garantir, juntamente com a limitação dinâmica dos tamanhos das sequências enumeradas, um custo de aprendizagem de O(nn), onde n é a dimensão (número de atributos) da instância a ser classificada. Nossos algorítmos baseiam-se na enumeração sob demanda de padrões (aproximadamente) contíguos presentes nos dados de treino, usando um método flexível e leve de casamento de padrões e uma estratégia inovadora de enumeração que chamamos desilhuetas de padrões, que fazem com que nossos classificadores sejam rápidos porém robustos mesmo em dados ruidosos. Nossos resultados empíricos, obtidos sobre conjuntos de dados reais, mostram que, na maioria dos casos, nossos calssificadores são mais rápidos que as soluções existentes (em alguns casos, ordens de grandeza mais rápidos) e proporcionam ganhos significativos de acurácia.

Metadados do item

id	UFMG_3f089c21cda42ea0e10b998288bdee82
oai_identifier_str	oai:repositorio.ufmg.br:1843/ESBF-97CJGD
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Adriano Alonso VelosoWagner Meira JuniorNivio ZivianiMohammed Javeed ZakiGesse Silva Ferreira de Dafe2019-08-09T12:50:57Z2019-08-09T12:50:57Z2013-01-07http://hdl.handle.net/1843/ESBF-97CJGDMuitas aplicações, tais como extração de informação, detecção de intrusão e reconhecimento de enovelamento de proteínas, podem ser expressas como uma sequência de eventos (ao invés de um conjunto não-ordenado de atributos), ou seja, existe uma relação de ordem entre os elementos que compõem cada instância presente nos dados. Essas aplicações podem ser modeladas como problemas de classificação e,nesse caso, o classificador precisa ser construído de forma a ser capaz de capturar tais relações e usá-las como fonte de informação. As principais abordagens para esse problema incluem: (i) a aprendizagem de Modelos Ocultos de Markov, (ii) a exploracão de sequências frequentes extraídas dos dados e (iii) o cálculo de string kernels para Máquinas de Vetores de Suporte (SVMs). Essas abordagens, entretanto, são computacionalmente difíceis e a alta dimensionalidade, típica dos dados sequenciais, representa sérios desafios à viabilidade de tais métodos, em especial se os dados possuem dependências longas (i.e., padrões longos são necessários para modelar os dados). Neste trabalho apresentamos algorítmos que geram classificadores sequenciais de alta eficiência através da exploração dos conceitos de adjacência ou proximidade entre os elementos de uma sequência, a fim de aprimorar a acurácia ou garantir, juntamente com a limitação dinâmica dos tamanhos das sequências enumeradas, um custo de aprendizagem de O(nn), onde n é a dimensão (número de atributos) da instância a ser classificada. Nossos algorítmos baseiam-se na enumeração sob demanda de padrões (aproximadamente) contíguos presentes nos dados de treino, usando um método flexível e leve de casamento de padrões e uma estratégia inovadora de enumeração que chamamos desilhuetas de padrões, que fazem com que nossos classificadores sejam rápidos porém robustos mesmo em dados ruidosos. Nossos resultados empíricos, obtidos sobre conjuntos de dados reais, mostram que, na maioria dos casos, nossos calssificadores são mais rápidos que as soluções existentes (em alguns casos, ordens de grandeza mais rápidos) e proporcionam ganhos significativos de acurácia.Many applications, such as information extraction, intrusion detection and protein fold recognition, can be expressed as sequences of events or elements (rather than unordered sets of features), that is, there is an order dependence among the elements composing each data instance. These applications may be modeled as classification problems, and in this case the classifier must be built using sequential interactions among the elements, so that the ordering relationship among them is properly captured. Dominant approaches to this problem include: (i) learning Hidden Markov Models, (ii) exploiting frequent sequences extracted from the data and (iii) computing string kernels for Support Vector Machines. Such approaches, however, are computationally hard, and the typically high-dimensional nature of sequential data poses serious challenges to their feasibility, especially if the data shows long range dependencies (i.e., long patterns are necessary in order to model the data). In this paper we introduce algorithms that build highly effective sequential classifiers by exploiting adjacency or proximity information, either to improve classification accuracy or to ensure O(nn) learning cost, where n is the dimension (number of features) comprising a given test instance. Our algorithms are based on enumerating (approximately) contiguous sequences from the training data on a demand-driven basis, exploiting a lightweight and flexible sequence matching function and an innovative sequence enumeration strategy called pattern silhouettes, which make our classifiers fast but also robust even in noisy data. Our empirical results on actual datasets show that, in most of the cases, our classifiers are faster than existing solutions (sometimes orders of magnitude faster), also providing significant accuracy improvements in most of the evaluated cases.Universidade Federal de Minas GeraisUFMGComputaçãoMineração de dados (Computação)Ciência da ComputaçãoAprendizagem eficiente de classificadores sequenciais em padrões longosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALgess_daf_.pdfapplication/pdf1661976https://repositorio.ufmg.br/bitstream/1843/ESBF-97CJGD/1/gess_daf_.pdf73a1e20df3631448e7d8fc39aa32ef52MD51TEXTgess_daf_.pdf.txtgess_daf_.pdf.txtExtracted texttext/plain85082https://repositorio.ufmg.br/bitstream/1843/ESBF-97CJGD/2/gess_daf_.pdf.txte12087b20c1246190d77161ce9537f64MD521843/ESBF-97CJGD2019-11-14 04:55:48.152oai:repositorio.ufmg.br:1843/ESBF-97CJGDRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T07:55:48Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Aprendizagem eficiente de classificadores sequenciais em padrões longos
title	Aprendizagem eficiente de classificadores sequenciais em padrões longos
spellingShingle	Aprendizagem eficiente de classificadores sequenciais em padrões longos Gesse Silva Ferreira de Dafe Ciência da Computação Computação Mineração de dados (Computação)
title_short	Aprendizagem eficiente de classificadores sequenciais em padrões longos
title_full	Aprendizagem eficiente de classificadores sequenciais em padrões longos
title_fullStr	Aprendizagem eficiente de classificadores sequenciais em padrões longos
title_full_unstemmed	Aprendizagem eficiente de classificadores sequenciais em padrões longos
title_sort	Aprendizagem eficiente de classificadores sequenciais em padrões longos
author	Gesse Silva Ferreira de Dafe
author_facet	Gesse Silva Ferreira de Dafe
author_role	author
dc.contributor.advisor1.fl_str_mv	Adriano Alonso Veloso
dc.contributor.referee1.fl_str_mv	Wagner Meira Junior
dc.contributor.referee2.fl_str_mv	Nivio Ziviani
dc.contributor.referee3.fl_str_mv	Mohammed Javeed Zaki
dc.contributor.author.fl_str_mv	Gesse Silva Ferreira de Dafe
contributor_str_mv	Adriano Alonso Veloso Wagner Meira Junior Nivio Ziviani Mohammed Javeed Zaki
dc.subject.por.fl_str_mv	Ciência da Computação
topic	Ciência da Computação Computação Mineração de dados (Computação)
dc.subject.other.pt_BR.fl_str_mv	Computação Mineração de dados (Computação)
description	Muitas aplicações, tais como extração de informação, detecção de intrusão e reconhecimento de enovelamento de proteínas, podem ser expressas como uma sequência de eventos (ao invés de um conjunto não-ordenado de atributos), ou seja, existe uma relação de ordem entre os elementos que compõem cada instância presente nos dados. Essas aplicações podem ser modeladas como problemas de classificação e,nesse caso, o classificador precisa ser construído de forma a ser capaz de capturar tais relações e usá-las como fonte de informação. As principais abordagens para esse problema incluem: (i) a aprendizagem de Modelos Ocultos de Markov, (ii) a exploracão de sequências frequentes extraídas dos dados e (iii) o cálculo de string kernels para Máquinas de Vetores de Suporte (SVMs). Essas abordagens, entretanto, são computacionalmente difíceis e a alta dimensionalidade, típica dos dados sequenciais, representa sérios desafios à viabilidade de tais métodos, em especial se os dados possuem dependências longas (i.e., padrões longos são necessários para modelar os dados). Neste trabalho apresentamos algorítmos que geram classificadores sequenciais de alta eficiência através da exploração dos conceitos de adjacência ou proximidade entre os elementos de uma sequência, a fim de aprimorar a acurácia ou garantir, juntamente com a limitação dinâmica dos tamanhos das sequências enumeradas, um custo de aprendizagem de O(nn), onde n é a dimensão (número de atributos) da instância a ser classificada. Nossos algorítmos baseiam-se na enumeração sob demanda de padrões (aproximadamente) contíguos presentes nos dados de treino, usando um método flexível e leve de casamento de padrões e uma estratégia inovadora de enumeração que chamamos desilhuetas de padrões, que fazem com que nossos classificadores sejam rápidos porém robustos mesmo em dados ruidosos. Nossos resultados empíricos, obtidos sobre conjuntos de dados reais, mostram que, na maioria dos casos, nossos calssificadores são mais rápidos que as soluções existentes (em alguns casos, ordens de grandeza mais rápidos) e proporcionam ganhos significativos de acurácia.
publishDate	2013
dc.date.issued.fl_str_mv	2013-01-07
dc.date.accessioned.fl_str_mv	2019-08-09T12:50:57Z
dc.date.available.fl_str_mv	2019-08-09T12:50:57Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/ESBF-97CJGD
url	http://hdl.handle.net/1843/ESBF-97CJGD
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv	UFMG
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/ESBF-97CJGD/1/gess_daf_.pdf https://repositorio.ufmg.br/bitstream/1843/ESBF-97CJGD/2/gess_daf_.pdf.txt
bitstream.checksum.fl_str_mv	73a1e20df3631448e7d8fc39aa32ef52 e12087b20c1246190d77161ce9537f64
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1803589168562962432

Aprendizagem eficiente de classificadores sequenciais em padrões longos

Registros relacionados