Extended bag-of-words formalism for image classification

Sandra Eliza Fontes de Avila

Extended bag-of-words formalism for image classification

Detalhes bibliográficos
Autor(a) principal:	Sandra Eliza Fontes de Avila
Data de Publicação:	2013
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Repositório Institucional da UFMG
Texto Completo:	http://hdl.handle.net/1843/ESSA-9ACJ4K
Resumo:	Informação visual, na forma de imagens e vídeos digitais, tornou-se tão onipresente em repositórios de dados, que não pode mais ser considerada uma 'cidadã de segunda classe', eclipsada por informações textuais. Neste cenário, a classificação de imagens tornou-se uma tarefa crítica. Em particular, a busca pela identificação automática de conceitos semânticos complexos, representados em imagens, tais como cenas ou objetos, tem motivado pesquisadores em diversas áreas como, por exemplo, Recuperação de Informação, Visão Computacional, Processamento de Imagem e Inteligência Artificial. No entanto, em contraste com os documentos de texto, cujas palavras apresentam conteúdo semântico, imagens consistem de pixels que não têm nenhuma informação semântica por si só, tornando a tarefa muito difícil. O problema abordado nesta tese refere-se à representação de imagens com base no seu conteúdo visual. Objetiva-se a detecção de conceitos em imagens e vídeos, por meio de uma nova representação que enriquece o modelo saco de palavras visuais. Baseando-se na quantização de descritores locais discriminantes por um dicionário, e na agregação desses descritores quantizados em um vetor único, o modelo saco de palavras surgiu como uma das abordagens mais promissora para a classificação de imagens. Nesta tese, é proposto BossaNova, uma nova representação de imagens que preserva informações importantes sobre a distribuição dos descritores locais em torno de cada palavra visual. Os resultados experimentais em diversas bases de classificação de images, tais como ImageCLEF Photo Annotation, MIRFLICKR, PASCAL VOC e 15-Scenes, mostraram a vantagem da abordagem BossaNova quando comparada às técnicas tradicionais, mesmo sem fazer uso de combinações complexas de diferentes descritores locais. Uma extensão da representação BossaNova também foi estudada nesta tese. Trata-se da combinação da abordagem BossaNova com uma outra representação muito competitiva baseada nos vetores de Fisher. Os resultados consistemente alcançam outras representações no estado-da-arte em diversas bases de dados, demonstrando a complementaridade das duas abordagens. Este estudo resultou no segundo lugar, na competição ImageCLEF 2012 Flickr Photo Annotation Task, dentre as 28 submissões, na categoria de informação visual. Ademais, a representação BossaNova também foi avaliada na aplicação real de detecção de pornografia. Os resultados validaram, mais uma vez, a relevância da abordagem BossaNova em relação às técnicas tradicionais em uma aplicação real

Metadados do item

id	UFMG_6319a86d8cdbf592e714b87b25900dac
oai_identifier_str	oai:repositorio.ufmg.br:1843/ESSA-9ACJ4K
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Arnaldo de Albuquerque AraujoMatthieu CordWilliam Robson SchwartzMario Fernando Montenegro Camposlorent PerronninPatrick GallinariEduardo Alves do Valle JruniorSandra Eliza Fontes de Avila2019-08-10T04:57:17Z2019-08-10T04:57:17Z2013-06-14http://hdl.handle.net/1843/ESSA-9ACJ4KInformação visual, na forma de imagens e vídeos digitais, tornou-se tão onipresente em repositórios de dados, que não pode mais ser considerada uma 'cidadã de segunda classe', eclipsada por informações textuais. Neste cenário, a classificação de imagens tornou-se uma tarefa crítica. Em particular, a busca pela identificação automática de conceitos semânticos complexos, representados em imagens, tais como cenas ou objetos, tem motivado pesquisadores em diversas áreas como, por exemplo, Recuperação de Informação, Visão Computacional, Processamento de Imagem e Inteligência Artificial. No entanto, em contraste com os documentos de texto, cujas palavras apresentam conteúdo semântico, imagens consistem de pixels que não têm nenhuma informação semântica por si só, tornando a tarefa muito difícil. O problema abordado nesta tese refere-se à representação de imagens com base no seu conteúdo visual. Objetiva-se a detecção de conceitos em imagens e vídeos, por meio de uma nova representação que enriquece o modelo saco de palavras visuais. Baseando-se na quantização de descritores locais discriminantes por um dicionário, e na agregação desses descritores quantizados em um vetor único, o modelo saco de palavras surgiu como uma das abordagens mais promissora para a classificação de imagens. Nesta tese, é proposto BossaNova, uma nova representação de imagens que preserva informações importantes sobre a distribuição dos descritores locais em torno de cada palavra visual. Os resultados experimentais em diversas bases de classificação de images, tais como ImageCLEF Photo Annotation, MIRFLICKR, PASCAL VOC e 15-Scenes, mostraram a vantagem da abordagem BossaNova quando comparada às técnicas tradicionais, mesmo sem fazer uso de combinações complexas de diferentes descritores locais. Uma extensão da representação BossaNova também foi estudada nesta tese. Trata-se da combinação da abordagem BossaNova com uma outra representação muito competitiva baseada nos vetores de Fisher. Os resultados consistemente alcançam outras representações no estado-da-arte em diversas bases de dados, demonstrando a complementaridade das duas abordagens. Este estudo resultou no segundo lugar, na competição ImageCLEF 2012 Flickr Photo Annotation Task, dentre as 28 submissões, na categoria de informação visual. Ademais, a representação BossaNova também foi avaliada na aplicação real de detecção de pornografia. Os resultados validaram, mais uma vez, a relevância da abordagem BossaNova em relação às técnicas tradicionais em uma aplicação realVisual information, in the form of digital images and videos, has become so omnipresent in computer databases and repositories, that it can no longer be considered a second class citizen, eclipsed by textual information. In that scenario, image classification has become a critical task. In particular, the pursuit of automatic identification of complex semantical concepts represented in images, such as scenes or objects, has motivated researchers in areas as diverse as Information Retrieval, Computer Vision, Image Processing and Artificial Intelligence. Nevertheless, in contrast to text documents, whose words carry semantic, images consist of pixels that have no semantic information by themselves, making the task very challenging. In this dissertation, we have addressed the problem of representing images based on their visual information. Our aim is content-based concept detection in images and videos, with a novel representation that enriches the Bag-of-Words model. Relying on the quantization of highly discriminant local descriptors by a codebook, and the aggregation of those quantized descriptors into a single pooled feature vector, the Bag-of- Words model has emerged as the most promising approach for image classification. We propose BossaNova, a novel image representation which offers a more informationpreserving pooling operation based on a distance-to-codeword distribution. The experimental evaluations on many challenging image classification benchmarks, such as ImageCLEF Photo Annotation, MIRFLICKR, PASCAL VOC and 15- Scenes, have shown the advantage of BossaNova when compared to traditional techniques, even without using complex combinations of different local descriptors. An extension of our approach has also been studied. It concerns the combination of BossaNova representation with another representation very competitive based on Fisher Vectors. The results consistently reaches other state-of-the-art representations in many datasets. It also experimentally demonstrate the complementarity of the two approaches. This study allowed us to achieve, in the competition ImageCLEF 2012 Flickr Photo Annotation Task, the 2nd among the 28 visual submissions. Finally, we have explored our BossaNova representation in the challenging real world application of pornography detection. Once again, the results validated the relevance of our approach compared to standard techniques on a real applicationUniversidade Federal de Minas GeraisUFMGVisão por computadorComputaçãoProcessamento de imagensReconhecimento de padrõesCiência da ComputaçãoExtended bag-of-words formalism for image classificationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALsandraavila_tese2013.pdfapplication/pdf7541943https://repositorio.ufmg.br/bitstream/1843/ESSA-9ACJ4K/1/sandraavila_tese2013.pdfa0b2795a9e368c9d443934e8dff45f81MD51TEXTsandraavila_tese2013.pdf.txtsandraavila_tese2013.pdf.txtExtracted texttext/plain346575https://repositorio.ufmg.br/bitstream/1843/ESSA-9ACJ4K/2/sandraavila_tese2013.pdf.txt2e588c2443a2b98d768334c90781f513MD521843/ESSA-9ACJ4K2019-11-14 08:33:38.15oai:repositorio.ufmg.br:1843/ESSA-9ACJ4KRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T11:33:38Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Extended bag-of-words formalism for image classification
title	Extended bag-of-words formalism for image classification
spellingShingle	Extended bag-of-words formalism for image classification Sandra Eliza Fontes de Avila Ciência da Computação Visão por computador Computação Processamento de imagens Reconhecimento de padrões
title_short	Extended bag-of-words formalism for image classification
title_full	Extended bag-of-words formalism for image classification
title_fullStr	Extended bag-of-words formalism for image classification
title_full_unstemmed	Extended bag-of-words formalism for image classification
title_sort	Extended bag-of-words formalism for image classification
author	Sandra Eliza Fontes de Avila
author_facet	Sandra Eliza Fontes de Avila
author_role	author
dc.contributor.advisor1.fl_str_mv	Arnaldo de Albuquerque Araujo
dc.contributor.advisor-co1.fl_str_mv	Matthieu Cord
dc.contributor.referee1.fl_str_mv	William Robson Schwartz
dc.contributor.referee2.fl_str_mv	Mario Fernando Montenegro Campos
dc.contributor.referee3.fl_str_mv	lorent Perronnin
dc.contributor.referee4.fl_str_mv	Patrick Gallinari
dc.contributor.referee5.fl_str_mv	Eduardo Alves do Valle Jrunior
dc.contributor.author.fl_str_mv	Sandra Eliza Fontes de Avila
contributor_str_mv	Arnaldo de Albuquerque Araujo Matthieu Cord William Robson Schwartz Mario Fernando Montenegro Campos lorent Perronnin Patrick Gallinari Eduardo Alves do Valle Jrunior
dc.subject.por.fl_str_mv	Ciência da Computação
topic	Ciência da Computação Visão por computador Computação Processamento de imagens Reconhecimento de padrões
dc.subject.other.pt_BR.fl_str_mv	Visão por computador Computação Processamento de imagens Reconhecimento de padrões
description	Informação visual, na forma de imagens e vídeos digitais, tornou-se tão onipresente em repositórios de dados, que não pode mais ser considerada uma 'cidadã de segunda classe', eclipsada por informações textuais. Neste cenário, a classificação de imagens tornou-se uma tarefa crítica. Em particular, a busca pela identificação automática de conceitos semânticos complexos, representados em imagens, tais como cenas ou objetos, tem motivado pesquisadores em diversas áreas como, por exemplo, Recuperação de Informação, Visão Computacional, Processamento de Imagem e Inteligência Artificial. No entanto, em contraste com os documentos de texto, cujas palavras apresentam conteúdo semântico, imagens consistem de pixels que não têm nenhuma informação semântica por si só, tornando a tarefa muito difícil. O problema abordado nesta tese refere-se à representação de imagens com base no seu conteúdo visual. Objetiva-se a detecção de conceitos em imagens e vídeos, por meio de uma nova representação que enriquece o modelo saco de palavras visuais. Baseando-se na quantização de descritores locais discriminantes por um dicionário, e na agregação desses descritores quantizados em um vetor único, o modelo saco de palavras surgiu como uma das abordagens mais promissora para a classificação de imagens. Nesta tese, é proposto BossaNova, uma nova representação de imagens que preserva informações importantes sobre a distribuição dos descritores locais em torno de cada palavra visual. Os resultados experimentais em diversas bases de classificação de images, tais como ImageCLEF Photo Annotation, MIRFLICKR, PASCAL VOC e 15-Scenes, mostraram a vantagem da abordagem BossaNova quando comparada às técnicas tradicionais, mesmo sem fazer uso de combinações complexas de diferentes descritores locais. Uma extensão da representação BossaNova também foi estudada nesta tese. Trata-se da combinação da abordagem BossaNova com uma outra representação muito competitiva baseada nos vetores de Fisher. Os resultados consistemente alcançam outras representações no estado-da-arte em diversas bases de dados, demonstrando a complementaridade das duas abordagens. Este estudo resultou no segundo lugar, na competição ImageCLEF 2012 Flickr Photo Annotation Task, dentre as 28 submissões, na categoria de informação visual. Ademais, a representação BossaNova também foi avaliada na aplicação real de detecção de pornografia. Os resultados validaram, mais uma vez, a relevância da abordagem BossaNova em relação às técnicas tradicionais em uma aplicação real
publishDate	2013
dc.date.issued.fl_str_mv	2013-06-14
dc.date.accessioned.fl_str_mv	2019-08-10T04:57:17Z
dc.date.available.fl_str_mv	2019-08-10T04:57:17Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/ESSA-9ACJ4K
url	http://hdl.handle.net/1843/ESSA-9ACJ4K
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv	UFMG
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/ESSA-9ACJ4K/1/sandraavila_tese2013.pdf https://repositorio.ufmg.br/bitstream/1843/ESSA-9ACJ4K/2/sandraavila_tese2013.pdf.txt
bitstream.checksum.fl_str_mv	a0b2795a9e368c9d443934e8dff45f81 2e588c2443a2b98d768334c90781f513
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1803589235355156480

Extended bag-of-words formalism for image classification

Registros relacionados