Automatic extraction of regions of interest from images based on visual attention models

Borba, Gustavo Benvenutti

Automatic extraction of regions of interest from images based on visual attention models

Detalhes bibliográficos
Autor(a) principal:	Borba, Gustavo Benvenutti
Data de Publicação:	2010
Tipo de documento:	Tese
Idioma:	eng
Título da fonte:	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo:	http://repositorio.utfpr.edu.br/jspui/handle/1/1295
Resumo:	Esta tese apresenta um método para a extração de regiões de interesse (ROIs) de imagens. No contexto deste trabalho, ROIs são definidas como os objetos semânticos que se destacam em uma imagem, podendo apresentar qualquer tamanho ou localização. O novo método baseia-se em modelos computacionais de atenção visual (VA), opera de forma completamente bottom-up, não supervisionada e não apresenta restrições com relação à categoria da imagem de entrada. Os elementos centrais da arquitetura são os modelos de VA propostos por Itti-Koch-Niebur e Stentiford. O modelo de Itti-Koch-Niebur considera as características de cor, intensidade e orientação da imagem e apresenta uma resposta na forma de coordenadas, correspondentes aos pontos de atenção (POAs) da imagem. O modelo Stentiford considera apenas as características de cor e apresenta a resposta na forma de áreas de atenção na imagem (AOAs). Na arquitetura proposta, a combinação de POAs e AOAs permite a obtenção dos contornos das ROIs. Duas implementações desta arquitetura, denominadas 'primeira versão' e 'versão melhorada' são apresentadas. A primeira versão utiliza principalmente operações tradicionais de morfologia matemática. Esta versão foi aplicada em dois sistemas de recuperação de imagens com base em regiões. No primeiro, as imagens são agrupadas de acordo com as ROIs, ao invés das características globais da imagem. O resultado são grupos de imagens mais significativos semanticamente, uma vez que o critério utilizado são os objetos da mesma categoria contidos nas imagens. No segundo sistema, á apresentada uma combinação da busca de imagens tradicional, baseada nas características globais da imagem, com a busca de imagens baseada em regiões. Ainda neste sistema, as buscas são especificadas através de mais de uma imagem exemplo. Na versão melhorada da arquitetura, os estágios principais são uma análise de coerência espacial entre as representações de ambos modelos de VA e uma representação multi-escala das AOAs. Se comparada à primeira versão, esta apresenta maior versatilidade, especialmente com relação aos tamanhos das ROIs presentes nas imagens. A versão melhorada foi avaliada diretamente, com uma ampla variedade de imagens diferentes bancos de imagens públicos, com padrões-ouro na forma de bounding boxes e de contornos reais dos objetos. As métricas utilizadas na avaliação foram presision, recall, F1 e area of overlap. Os resultados finais são excelentes, considerando-se a abordagem exclusivamente bottom-up e não-supervisionada do método.

Metadados do item

id	UTFPR-12_6daa6fbe2cc43a0f6976891636e4d97c
oai_identifier_str	oai:repositorio.utfpr.edu.br:1/1295
network_acronym_str	UTFPR-12
network_name_str	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling	2015-06-18T17:29:26Z2015-06-18T17:29:26Z2010-03-11BORBA, Gustavo Benvenutti. Automatic extraction of regions of interest from images based on visual attention models. 2010. 109 f. Tese (Doutorado em Engenharia Elétrica e Informática Industrial) – Universidade Tecnológica Federal do Paraná, Curitiba, 2010http://repositorio.utfpr.edu.br/jspui/handle/1/1295Esta tese apresenta um método para a extração de regiões de interesse (ROIs) de imagens. No contexto deste trabalho, ROIs são definidas como os objetos semânticos que se destacam em uma imagem, podendo apresentar qualquer tamanho ou localização. O novo método baseia-se em modelos computacionais de atenção visual (VA), opera de forma completamente bottom-up, não supervisionada e não apresenta restrições com relação à categoria da imagem de entrada. Os elementos centrais da arquitetura são os modelos de VA propostos por Itti-Koch-Niebur e Stentiford. O modelo de Itti-Koch-Niebur considera as características de cor, intensidade e orientação da imagem e apresenta uma resposta na forma de coordenadas, correspondentes aos pontos de atenção (POAs) da imagem. O modelo Stentiford considera apenas as características de cor e apresenta a resposta na forma de áreas de atenção na imagem (AOAs). Na arquitetura proposta, a combinação de POAs e AOAs permite a obtenção dos contornos das ROIs. Duas implementações desta arquitetura, denominadas 'primeira versão' e 'versão melhorada' são apresentadas. A primeira versão utiliza principalmente operações tradicionais de morfologia matemática. Esta versão foi aplicada em dois sistemas de recuperação de imagens com base em regiões. No primeiro, as imagens são agrupadas de acordo com as ROIs, ao invés das características globais da imagem. O resultado são grupos de imagens mais significativos semanticamente, uma vez que o critério utilizado são os objetos da mesma categoria contidos nas imagens. No segundo sistema, á apresentada uma combinação da busca de imagens tradicional, baseada nas características globais da imagem, com a busca de imagens baseada em regiões. Ainda neste sistema, as buscas são especificadas através de mais de uma imagem exemplo. Na versão melhorada da arquitetura, os estágios principais são uma análise de coerência espacial entre as representações de ambos modelos de VA e uma representação multi-escala das AOAs. Se comparada à primeira versão, esta apresenta maior versatilidade, especialmente com relação aos tamanhos das ROIs presentes nas imagens. A versão melhorada foi avaliada diretamente, com uma ampla variedade de imagens diferentes bancos de imagens públicos, com padrões-ouro na forma de bounding boxes e de contornos reais dos objetos. As métricas utilizadas na avaliação foram presision, recall, F1 e area of overlap. Os resultados finais são excelentes, considerando-se a abordagem exclusivamente bottom-up e não-supervisionada do método.This thesis presents a method for the extraction of regions of interest (ROIs) from images. By ROIs we mean the most prominent semantic objects in the images, of any size and located at any position in the image. The novel method is based on computational models of visual attention (VA), operates under a completely bottom-up and unsupervised way and does not present con-straints in the category of the input images. At the core of the architecture is de model VA proposed by Itti, Koch and Niebur and the one proposed by Stentiford. The first model takes into account color, intensity, and orientation features and provides coordinates corresponding to the points of attention (POAs) in the image. The second model considers color features and provides rough areas of attention (AOAs) in the image. In the proposed architecture, the POAs and AOAs are combined to establish the contours of the ROIs. Two implementations of this architecture are presented, namely 'first version' and 'improved version'. The first version mainly on traditional morphological operations and was applied in two novel region-based image retrieval systems. In the first one, images are clustered on the basis of the ROIs, instead of the global characteristics of the image. This provides a meaningful organization of the database images, since the output clusters tend to contain objects belonging to the same category. In the second system, we present a combination of the traditional global-based with region-based image retrieval under a multiple-example query scheme. In the improved version of the architecture, the main stages are a spatial coherence analysis between both VA models and a multiscale representation of the AOAs. Comparing to the first one, the improved version presents more versatility, mainly in terms of the size of the extracted ROIs. The improved version was directly evaluated for a wide variety of images from different publicly available databases, with ground truth in the form of bounding boxes and true object contours. The performance measures used were precision, recall, F1 and area overlap. Experimental results are of very high quality, particularly if one takes into account the bottom-up and unsupervised nature of the approach.UOL; CAPESengUniversidade Tecnológica Federal do ParanáCuritibaPrograma de Pós-Graduação em Engenharia Elétrica e Informática IndustrialProcessamento de imagens - Técnicas digitaisSistemas de arquivamento e comunicação de imagensSistemas de recuperação da informaçãoEngenharia elétricaImage processing - Digital techniquesPicture archiving and communication systemsInformation storage and retrieval systemsElectric engineeringAutomatic extraction of regions of interest from images based on visual attention modelsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisCuritibaDoutoradoGamba, Humberto RemigioMarques Filho, OgêBorba, Gustavo Benvenuttireponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRinfo:eu-repo/semantics/openAccessTHUMBNAILCT_CPGEI_M_Borba, Gustavo Benvenutti_2010.pdf.jpgCT_CPGEI_M_Borba, Gustavo Benvenutti_2010.pdf.jpgGenerated Thumbnailimage/jpeg1245http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/1295/4/CT_CPGEI_M_Borba%2c%20Gustavo%20Benvenutti_2010.pdf.jpg72362c564aaf12ea315ce136f04d2907MD54ORIGINALCT_CPGEI_M_Borba, Gustavo Benvenutti_2010.pdfCT_CPGEI_M_Borba, Gustavo Benvenutti_2010.pdfapplication/pdf90078425http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/1295/1/CT_CPGEI_M_Borba%2c%20Gustavo%20Benvenutti_2010.pdf34c62a3a9d1e067ac28e00b5180da0ecMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/1295/2/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD52TEXTCT_CPGEI_M_Borba, Gustavo Benvenutti_2010.pdf.txtCT_CPGEI_M_Borba, Gustavo Benvenutti_2010.pdf.txtExtracted texttext/plain187665http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/1295/3/CT_CPGEI_M_Borba%2c%20Gustavo%20Benvenutti_2010.pdf.txt8f0f19db482634e3d9c4be92ad0fa888MD531/12952015-06-19 03:00:17.593oai:repositorio.utfpr.edu.br:1/1295TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2015-06-19T06:00:17Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv	Automatic extraction of regions of interest from images based on visual attention models
title	Automatic extraction of regions of interest from images based on visual attention models
spellingShingle	Automatic extraction of regions of interest from images based on visual attention models Borba, Gustavo Benvenutti Processamento de imagens - Técnicas digitais Sistemas de arquivamento e comunicação de imagens Sistemas de recuperação da informação Engenharia elétrica Image processing - Digital techniques Picture archiving and communication systems Information storage and retrieval systems Electric engineering
title_short	Automatic extraction of regions of interest from images based on visual attention models
title_full	Automatic extraction of regions of interest from images based on visual attention models
title_fullStr	Automatic extraction of regions of interest from images based on visual attention models
title_full_unstemmed	Automatic extraction of regions of interest from images based on visual attention models
title_sort	Automatic extraction of regions of interest from images based on visual attention models
author	Borba, Gustavo Benvenutti
author_facet	Borba, Gustavo Benvenutti
author_role	author
dc.contributor.advisor1.fl_str_mv	Gamba, Humberto Remigio
dc.contributor.advisor-co1.fl_str_mv	Marques Filho, Ogê
dc.contributor.author.fl_str_mv	Borba, Gustavo Benvenutti
contributor_str_mv	Gamba, Humberto Remigio Marques Filho, Ogê
dc.subject.por.fl_str_mv	Processamento de imagens - Técnicas digitais Sistemas de arquivamento e comunicação de imagens Sistemas de recuperação da informação Engenharia elétrica Image processing - Digital techniques Picture archiving and communication systems Information storage and retrieval systems Electric engineering
topic	Processamento de imagens - Técnicas digitais Sistemas de arquivamento e comunicação de imagens Sistemas de recuperação da informação Engenharia elétrica Image processing - Digital techniques Picture archiving and communication systems Information storage and retrieval systems Electric engineering
description	Esta tese apresenta um método para a extração de regiões de interesse (ROIs) de imagens. No contexto deste trabalho, ROIs são definidas como os objetos semânticos que se destacam em uma imagem, podendo apresentar qualquer tamanho ou localização. O novo método baseia-se em modelos computacionais de atenção visual (VA), opera de forma completamente bottom-up, não supervisionada e não apresenta restrições com relação à categoria da imagem de entrada. Os elementos centrais da arquitetura são os modelos de VA propostos por Itti-Koch-Niebur e Stentiford. O modelo de Itti-Koch-Niebur considera as características de cor, intensidade e orientação da imagem e apresenta uma resposta na forma de coordenadas, correspondentes aos pontos de atenção (POAs) da imagem. O modelo Stentiford considera apenas as características de cor e apresenta a resposta na forma de áreas de atenção na imagem (AOAs). Na arquitetura proposta, a combinação de POAs e AOAs permite a obtenção dos contornos das ROIs. Duas implementações desta arquitetura, denominadas 'primeira versão' e 'versão melhorada' são apresentadas. A primeira versão utiliza principalmente operações tradicionais de morfologia matemática. Esta versão foi aplicada em dois sistemas de recuperação de imagens com base em regiões. No primeiro, as imagens são agrupadas de acordo com as ROIs, ao invés das características globais da imagem. O resultado são grupos de imagens mais significativos semanticamente, uma vez que o critério utilizado são os objetos da mesma categoria contidos nas imagens. No segundo sistema, á apresentada uma combinação da busca de imagens tradicional, baseada nas características globais da imagem, com a busca de imagens baseada em regiões. Ainda neste sistema, as buscas são especificadas através de mais de uma imagem exemplo. Na versão melhorada da arquitetura, os estágios principais são uma análise de coerência espacial entre as representações de ambos modelos de VA e uma representação multi-escala das AOAs. Se comparada à primeira versão, esta apresenta maior versatilidade, especialmente com relação aos tamanhos das ROIs presentes nas imagens. A versão melhorada foi avaliada diretamente, com uma ampla variedade de imagens diferentes bancos de imagens públicos, com padrões-ouro na forma de bounding boxes e de contornos reais dos objetos. As métricas utilizadas na avaliação foram presision, recall, F1 e area of overlap. Os resultados finais são excelentes, considerando-se a abordagem exclusivamente bottom-up e não-supervisionada do método.
publishDate	2010
dc.date.issued.fl_str_mv	2010-03-11
dc.date.accessioned.fl_str_mv	2015-06-18T17:29:26Z
dc.date.available.fl_str_mv	2015-06-18T17:29:26Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	BORBA, Gustavo Benvenutti. Automatic extraction of regions of interest from images based on visual attention models. 2010. 109 f. Tese (Doutorado em Engenharia Elétrica e Informática Industrial) – Universidade Tecnológica Federal do Paraná, Curitiba, 2010
dc.identifier.uri.fl_str_mv	http://repositorio.utfpr.edu.br/jspui/handle/1/1295
identifier_str_mv	BORBA, Gustavo Benvenutti. Automatic extraction of regions of interest from images based on visual attention models. 2010. 109 f. Tese (Doutorado em Engenharia Elétrica e Informática Industrial) – Universidade Tecnológica Federal do Paraná, Curitiba, 2010
url	http://repositorio.utfpr.edu.br/jspui/handle/1/1295
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Tecnológica Federal do Paraná Curitiba
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial
publisher.none.fl_str_mv	Universidade Tecnológica Federal do Paraná Curitiba
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR
instname_str	Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str	UTFPR
institution	UTFPR
reponame_str	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv	http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/1295/4/CT_CPGEI_M_Borba%2c%20Gustavo%20Benvenutti_2010.pdf.jpg http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/1295/1/CT_CPGEI_M_Borba%2c%20Gustavo%20Benvenutti_2010.pdf http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/1295/2/license.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/1295/3/CT_CPGEI_M_Borba%2c%20Gustavo%20Benvenutti_2010.pdf.txt
bitstream.checksum.fl_str_mv	72362c564aaf12ea315ce136f04d2907 34c62a3a9d1e067ac28e00b5180da0ec b9d82215ab23456fa2d8b49c5df1b95b 8f0f19db482634e3d9c4be92ad0fa888
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_	1805923165592879104

Automatic extraction of regions of interest from images based on visual attention models

Registros relacionados