Efficient construction of multi-scale image pyramids for real-time embedded robot vision

Entschev, Peter Andreas

Efficient construction of multi-scale image pyramids for real-time embedded robot vision

Detalhes bibliográficos
Autor(a) principal:	Entschev, Peter Andreas
Data de Publicação:	2013
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo:	http://repositorio.utfpr.edu.br/jspui/handle/1/720
Resumo:	Detectores de pontos de interesse, ou detectores de keypoints, têm sido de grande interesse para a área de visão robótica embarcada, especialmente aqueles que possuem robustez a variações geométricas, como rotação, transformações afins e mudanças em escala. A detecção de características invariáveis a escala é normalmente realizada com a construção de pirâmides de imagens em multiescala e pela busca exaustiva de extremos no espaço de escala, uma abordagem presente em métodos de reconhecimento de objetos como SIFT e SURF. Esses métodos são capazes de encontrar pontos de interesse bastante robustos, com propriedades adequadas para o reconhecimento de objetos, mas são ao mesmo tempo computacionalmente custosos. Nesse trabalho é apresentado um método eficiente para a construção de pirâmides de imagens em sistemas embarcados, como a plataforma BeagleBoard-xM, de forma similar ao método SIFT. O método aqui apresentado tem como objetivo utilizar técnicas computacionalmente menos custosas e a reutilização de informações previamente processadas de forma eficiente para reduzir a complexidade computacional. Para simplificar o processo de construção de pirâmides, o método utiliza filtros binomiais em substituição aos filtros Gaussianos convencionais utilizados no método SIFT original para calcular múltiplas escalas de uma imagem. Filtros binomiais possuem a vantagem de serem implementáveis utilizando notação ponto-fixo, o que é uma grande vantagem para muitos sistemas embarcados que não possuem suporte nativo a ponto-flutuante. A quantidade de convoluções necessária é reduzida pela reamostragem de escalas já processadas da pirâmide. Após a apresentação do método para construção eficiente de pirâmides, é apresentada uma maneira de implementação eficiente do método em uma plataforma SIMD (Single Instruction, Multiple Data, em português, Instrução Única, Dados Múltiplos) – a plataforma SIMD usada é a extensão ARM Neon disponível no processador ARM Cortex-A8 da BeagleBoard-xM. Plataformas SIMD em geral são muito úteis para aplicações multimídia, onde normalmente é necessário realizar a mesma operação em vários elementos, como pixels em uma imagem, permitindo que múltiplos dados sejam processados com uma única instrução do processador. Entretanto, a extensão Neon no processador Cortex-A8 não suporta operações em ponto-flutuante, tendo o método sido cuidadosamente implementado de forma a superar essa limitação. Por fim, alguns resultados sobre o método aqui proposto e método SIFT original são apresentados, incluindo seu desempenho em tempo de execução e repetibilidade de pontos de interesse detectados. Com uma implementação direta (sem o uso da plataforma SIMD), é mostrado que o método aqui apresentado necessita de aproximadamente 1/4 do tempo necessário para construir a pirâmide do método SIFT original, ao mesmo tempo em que repete até 86% dos pontos de interesse. Com uma abordagem completamente implementada em ponto-fixo (incluindo a vetorização com a plataforma SIMD) a repetibilidade chega a 92% dos pontos de interesse do método SIFT original, porém, reduzindo o tempo de processamento para menos de 3%.

Metadados do item

id	UTFPR-12_a4815bdb0ef6604e30b6c6e1a68639fa
oai_identifier_str	oai:repositorio.utfpr.edu.br:1/720
network_acronym_str	UTFPR-12
network_name_str	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling	2014-02-27T20:26:42Z2014-02-27T20:26:42Z2013-12-16ENTSCHEV, Peter Andreas. Efficient construction of multi-scale image pyramids for real-time embedded robot vision. 2014. 61 f. Dissertação (Mestrado em Engenharia Elétrica e Informática Industrial) – Universidade Tecnológica Federal do Paraná, Curitiba, 2014.http://repositorio.utfpr.edu.br/jspui/handle/1/720Detectores de pontos de interesse, ou detectores de keypoints, têm sido de grande interesse para a área de visão robótica embarcada, especialmente aqueles que possuem robustez a variações geométricas, como rotação, transformações afins e mudanças em escala. A detecção de características invariáveis a escala é normalmente realizada com a construção de pirâmides de imagens em multiescala e pela busca exaustiva de extremos no espaço de escala, uma abordagem presente em métodos de reconhecimento de objetos como SIFT e SURF. Esses métodos são capazes de encontrar pontos de interesse bastante robustos, com propriedades adequadas para o reconhecimento de objetos, mas são ao mesmo tempo computacionalmente custosos. Nesse trabalho é apresentado um método eficiente para a construção de pirâmides de imagens em sistemas embarcados, como a plataforma BeagleBoard-xM, de forma similar ao método SIFT. O método aqui apresentado tem como objetivo utilizar técnicas computacionalmente menos custosas e a reutilização de informações previamente processadas de forma eficiente para reduzir a complexidade computacional. Para simplificar o processo de construção de pirâmides, o método utiliza filtros binomiais em substituição aos filtros Gaussianos convencionais utilizados no método SIFT original para calcular múltiplas escalas de uma imagem. Filtros binomiais possuem a vantagem de serem implementáveis utilizando notação ponto-fixo, o que é uma grande vantagem para muitos sistemas embarcados que não possuem suporte nativo a ponto-flutuante. A quantidade de convoluções necessária é reduzida pela reamostragem de escalas já processadas da pirâmide. Após a apresentação do método para construção eficiente de pirâmides, é apresentada uma maneira de implementação eficiente do método em uma plataforma SIMD (Single Instruction, Multiple Data, em português, Instrução Única, Dados Múltiplos) – a plataforma SIMD usada é a extensão ARM Neon disponível no processador ARM Cortex-A8 da BeagleBoard-xM. Plataformas SIMD em geral são muito úteis para aplicações multimídia, onde normalmente é necessário realizar a mesma operação em vários elementos, como pixels em uma imagem, permitindo que múltiplos dados sejam processados com uma única instrução do processador. Entretanto, a extensão Neon no processador Cortex-A8 não suporta operações em ponto-flutuante, tendo o método sido cuidadosamente implementado de forma a superar essa limitação. Por fim, alguns resultados sobre o método aqui proposto e método SIFT original são apresentados, incluindo seu desempenho em tempo de execução e repetibilidade de pontos de interesse detectados. Com uma implementação direta (sem o uso da plataforma SIMD), é mostrado que o método aqui apresentado necessita de aproximadamente 1/4 do tempo necessário para construir a pirâmide do método SIFT original, ao mesmo tempo em que repete até 86% dos pontos de interesse. Com uma abordagem completamente implementada em ponto-fixo (incluindo a vetorização com a plataforma SIMD) a repetibilidade chega a 92% dos pontos de interesse do método SIFT original, porém, reduzindo o tempo de processamento para menos de 3%.Interest point detectors, or keypoint detectors, have been of great interest for embedded robot vision for a long time, especially those which provide robustness against geometrical variations, such as rotation, affine transformations and changes in scale. The detection of scale invariant features is normally done by constructing multi-scale image pyramids and performing an exhaustive search for extrema in the scale space, an approach that is present in object recognition methods such as SIFT and SURF. These methods are able to find very robust interest points with suitable properties for object recognition, but at the same time are computationally expensive. In this work we present an efficient method for the construction of SIFT-like image pyramids in embedded systems such as the BeagleBoard-xM. The method we present here aims at using computationally less expensive techniques and reusing already processed information in an efficient manner in order to reduce the overall computational complexity. To simplify the pyramid building process we use binomial filters instead of conventional Gaussian filters used in the original SIFT method to calculate multiple scales of an image. Binomial filters have the advantage of being able to be implemented by using fixed-point notation, which is a big advantage for many embedded systems that do not provide native floating-point support. We also reduce the amount of convolution operations needed by resampling already processed scales of the pyramid. After presenting our efficient pyramid construction method, we show how to implement it in an efficient manner in an SIMD (Single Instruction, Multiple Data) platform -- the SIMD platform we use is the ARM Neon extension available in the BeagleBoard-xM ARM Cortex-A8 processor. SIMD platforms in general are very useful for multimedia applications, where normally it is necessary to perform the same operation over several elements, such as pixels in images, enabling multiple data to be processed with a single instruction of the processor. However, the Neon extension in the Cortex-A8 processor does not support floating-point operations, so the whole method was carefully implemented to overcome this limitation. Finally, we provide some comparison results regarding the method we propose here and the original SIFT approach, including performance regarding execution time and repeatability of detected keypoints. With a straightforward implementation (without the use of the SIMD platform), we show that our method takes approximately 1/4 of the time taken to build the entire original SIFT pyramid, while repeating up to 86% of the interest points found with the original method. With a complete fixed-point approach (including vectorization within the SIMD platform) we show that repeatability reaches up to 92% of the original SIFT keypoints while reducing the processing time to less than 3%.engUniversidade Tecnológica Federal do ParanáCuritibaPrograma de Pós-Graduação em Engenharia Elétrica e Informática IndustrialProcessamento de imagens - Modelos matemáticosVisão por computadorVisão de robôSistemas de reconhecimento de padrõesSistemas embarcados (Computadores)Simulação (Computadores)Engenharia elétricaImage processing - Mathematical modelsComputer visionRobot visionPattern recognition systemsEmbedded computer systemsComputer simulationElectric engineeringEfficient construction of multi-scale image pyramids for real-time embedded robot visioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisCuritibaMestradoVieira Neto, HugoEntschev, Peter Andreasreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRinfo:eu-repo/semantics/openAccessTHUMBNAILCT_CPGEI_M_Entschev, Peter Andreas_2014.pdf.jpgCT_CPGEI_M_Entschev, Peter Andreas_2014.pdf.jpgGenerated Thumbnailimage/jpeg1213http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/720/4/CT_CPGEI_M_Entschev%2c%20Peter%20Andreas_2014.pdf.jpg911ae52109f2f7c441665539984e0f54MD54ORIGINALCT_CPGEI_M_Entschev, Peter Andreas_2014.pdfCT_CPGEI_M_Entschev, Peter Andreas_2014.pdfapplication/pdf1872600http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/720/1/CT_CPGEI_M_Entschev%2c%20Peter%20Andreas_2014.pdf3a4a5d6bb6976e4ab4a65aea231d0dfeMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81292http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/720/2/license.txt009f5cba5f69d75c09da00b6f53f483aMD52TEXTCT_CPGEI_M_Entschev, Peter Andreas_2014.pdf.txtCT_CPGEI_M_Entschev, Peter Andreas_2014.pdf.txtExtracted texttext/plain116012http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/720/3/CT_CPGEI_M_Entschev%2c%20Peter%20Andreas_2014.pdf.txt78d1592e4b00e971336bf2ea8d687484MD531/7202015-03-07 03:14:01.466oai:repositorio.utfpr.edu.br:1/720ICBOYSBxdWFsaWRhZGUgZGUgdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IgZGEgcHVibGljYcOnw6NvLCBhdXRvcml6byBhIFVURlBSIGEgdmVpY3VsYXIsIAphdHJhdsOpcyBkbyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGVtIEFjZXNzbyBBYmVydG8gKFBJQUEpIGUgZG9zIENhdMOhbG9nb3MgZGFzIEJpYmxpb3RlY2FzIApkZXN0YSBJbnN0aXR1acOnw6NvLCBzZW0gcmVzc2FyY2ltZW50byBkb3MgZGlyZWl0b3MgYXV0b3JhaXMsIGRlIGFjb3JkbyBjb20gYSBMZWkgbm8gOS42MTAvOTgsIApvIHRleHRvIGRlc3RhIG9icmEsIG9ic2VydmFuZG8gYXMgY29uZGnDp8O1ZXMgZGUgZGlzcG9uaWJpbGl6YcOnw6NvIHJlZ2lzdHJhZGFzIG5vIGl0ZW0gNCBkbyAK4oCcVGVybW8gZGUgQXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2HDp8OjbyBkZSBUcmFiYWxob3MgZGUgQ29uY2x1c8OjbyBkZSBDdXJzbyBkZSBHcmFkdWHDp8OjbyBlIApFc3BlY2lhbGl6YcOnw6NvLCBEaXNzZXJ0YcOnw7VlcyBlIFRlc2VzIG5vIFBvcnRhbCBkZSBJbmZvcm1hw6fDo28gZSBub3MgQ2F0w6Fsb2dvcyBFbGV0csO0bmljb3MgZG8gClNpc3RlbWEgZGUgQmlibGlvdGVjYXMgZGEgVVRGUFLigJ0sIHBhcmEgZmlucyBkZSBsZWl0dXJhLCBpbXByZXNzw6NvIGUvb3UgZG93bmxvYWQsIHZpc2FuZG8gYSAKZGl2dWxnYcOnw6NvIGRhIHByb2R1w6fDo28gY2llbnTDrWZpY2EgYnJhc2lsZWlyYS4KCiAgQXMgdmlhcyBvcmlnaW5haXMgZSBhc3NpbmFkYXMgcGVsbyhzKSBhdXRvcihlcykgZG8g4oCcVGVybW8gZGUgQXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2HDp8OjbyBkZSAKVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSBFc3BlY2lhbGl6YcOnw6NvLCBEaXNzZXJ0YcOnw7VlcyBlIFRlc2VzIG5vIFBvcnRhbCAKZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIFNpc3RlbWEgZGUgQmlibGlvdGVjYXMgZGEgVVRGUFLigJ0gZSBkYSDigJxEZWNsYXJhw6fDo28gCmRlIEF1dG9yaWHigJ0gZW5jb250cmFtLXNlIGFycXVpdmFkYXMgbmEgQmlibGlvdGVjYSBkbyBDw6JtcHVzIG5vIHF1YWwgbyB0cmFiYWxobyBmb2kgZGVmZW5kaWRvLiAKTm8gY2FzbyBkZSBwdWJsaWNhw6fDtWVzIGRlIGF1dG9yaWEgY29sZXRpdmEgZSBtdWx0aWPDom1wdXMsIG9zIGRvY3VtZW50b3MgZmljYXLDo28gc29iIGd1YXJkYSBkYSAKQmlibGlvdGVjYSBjb20gYSBxdWFsIG8g4oCccHJpbWVpcm8gYXV0b3LigJ0gcG9zc3VhIHbDrW5jdWxvLgo=Repositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2015-03-07T06:14:01Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv	Efficient construction of multi-scale image pyramids for real-time embedded robot vision
title	Efficient construction of multi-scale image pyramids for real-time embedded robot vision
spellingShingle	Efficient construction of multi-scale image pyramids for real-time embedded robot vision Entschev, Peter Andreas Processamento de imagens - Modelos matemáticos Visão por computador Visão de robô Sistemas de reconhecimento de padrões Sistemas embarcados (Computadores) Simulação (Computadores) Engenharia elétrica Image processing - Mathematical models Computer vision Robot vision Pattern recognition systems Embedded computer systems Computer simulation Electric engineering
title_short	Efficient construction of multi-scale image pyramids for real-time embedded robot vision
title_full	Efficient construction of multi-scale image pyramids for real-time embedded robot vision
title_fullStr	Efficient construction of multi-scale image pyramids for real-time embedded robot vision
title_full_unstemmed	Efficient construction of multi-scale image pyramids for real-time embedded robot vision
title_sort	Efficient construction of multi-scale image pyramids for real-time embedded robot vision
author	Entschev, Peter Andreas
author_facet	Entschev, Peter Andreas
author_role	author
dc.contributor.advisor1.fl_str_mv	Vieira Neto, Hugo
dc.contributor.author.fl_str_mv	Entschev, Peter Andreas
contributor_str_mv	Vieira Neto, Hugo
dc.subject.por.fl_str_mv	Processamento de imagens - Modelos matemáticos Visão por computador Visão de robô Sistemas de reconhecimento de padrões Sistemas embarcados (Computadores) Simulação (Computadores) Engenharia elétrica Image processing - Mathematical models Computer vision Robot vision Pattern recognition systems Embedded computer systems Computer simulation Electric engineering
topic	Processamento de imagens - Modelos matemáticos Visão por computador Visão de robô Sistemas de reconhecimento de padrões Sistemas embarcados (Computadores) Simulação (Computadores) Engenharia elétrica Image processing - Mathematical models Computer vision Robot vision Pattern recognition systems Embedded computer systems Computer simulation Electric engineering
description	Detectores de pontos de interesse, ou detectores de keypoints, têm sido de grande interesse para a área de visão robótica embarcada, especialmente aqueles que possuem robustez a variações geométricas, como rotação, transformações afins e mudanças em escala. A detecção de características invariáveis a escala é normalmente realizada com a construção de pirâmides de imagens em multiescala e pela busca exaustiva de extremos no espaço de escala, uma abordagem presente em métodos de reconhecimento de objetos como SIFT e SURF. Esses métodos são capazes de encontrar pontos de interesse bastante robustos, com propriedades adequadas para o reconhecimento de objetos, mas são ao mesmo tempo computacionalmente custosos. Nesse trabalho é apresentado um método eficiente para a construção de pirâmides de imagens em sistemas embarcados, como a plataforma BeagleBoard-xM, de forma similar ao método SIFT. O método aqui apresentado tem como objetivo utilizar técnicas computacionalmente menos custosas e a reutilização de informações previamente processadas de forma eficiente para reduzir a complexidade computacional. Para simplificar o processo de construção de pirâmides, o método utiliza filtros binomiais em substituição aos filtros Gaussianos convencionais utilizados no método SIFT original para calcular múltiplas escalas de uma imagem. Filtros binomiais possuem a vantagem de serem implementáveis utilizando notação ponto-fixo, o que é uma grande vantagem para muitos sistemas embarcados que não possuem suporte nativo a ponto-flutuante. A quantidade de convoluções necessária é reduzida pela reamostragem de escalas já processadas da pirâmide. Após a apresentação do método para construção eficiente de pirâmides, é apresentada uma maneira de implementação eficiente do método em uma plataforma SIMD (Single Instruction, Multiple Data, em português, Instrução Única, Dados Múltiplos) – a plataforma SIMD usada é a extensão ARM Neon disponível no processador ARM Cortex-A8 da BeagleBoard-xM. Plataformas SIMD em geral são muito úteis para aplicações multimídia, onde normalmente é necessário realizar a mesma operação em vários elementos, como pixels em uma imagem, permitindo que múltiplos dados sejam processados com uma única instrução do processador. Entretanto, a extensão Neon no processador Cortex-A8 não suporta operações em ponto-flutuante, tendo o método sido cuidadosamente implementado de forma a superar essa limitação. Por fim, alguns resultados sobre o método aqui proposto e método SIFT original são apresentados, incluindo seu desempenho em tempo de execução e repetibilidade de pontos de interesse detectados. Com uma implementação direta (sem o uso da plataforma SIMD), é mostrado que o método aqui apresentado necessita de aproximadamente 1/4 do tempo necessário para construir a pirâmide do método SIFT original, ao mesmo tempo em que repete até 86% dos pontos de interesse. Com uma abordagem completamente implementada em ponto-fixo (incluindo a vetorização com a plataforma SIMD) a repetibilidade chega a 92% dos pontos de interesse do método SIFT original, porém, reduzindo o tempo de processamento para menos de 3%.
publishDate	2013
dc.date.issued.fl_str_mv	2013-12-16
dc.date.accessioned.fl_str_mv	2014-02-27T20:26:42Z
dc.date.available.fl_str_mv	2014-02-27T20:26:42Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	ENTSCHEV, Peter Andreas. Efficient construction of multi-scale image pyramids for real-time embedded robot vision. 2014. 61 f. Dissertação (Mestrado em Engenharia Elétrica e Informática Industrial) – Universidade Tecnológica Federal do Paraná, Curitiba, 2014.
dc.identifier.uri.fl_str_mv	http://repositorio.utfpr.edu.br/jspui/handle/1/720
identifier_str_mv	ENTSCHEV, Peter Andreas. Efficient construction of multi-scale image pyramids for real-time embedded robot vision. 2014. 61 f. Dissertação (Mestrado em Engenharia Elétrica e Informática Industrial) – Universidade Tecnológica Federal do Paraná, Curitiba, 2014.
url	http://repositorio.utfpr.edu.br/jspui/handle/1/720
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Tecnológica Federal do Paraná Curitiba
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial
publisher.none.fl_str_mv	Universidade Tecnológica Federal do Paraná Curitiba
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR
instname_str	Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str	UTFPR
institution	UTFPR
reponame_str	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv	http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/720/4/CT_CPGEI_M_Entschev%2c%20Peter%20Andreas_2014.pdf.jpg http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/720/1/CT_CPGEI_M_Entschev%2c%20Peter%20Andreas_2014.pdf http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/720/2/license.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/720/3/CT_CPGEI_M_Entschev%2c%20Peter%20Andreas_2014.pdf.txt
bitstream.checksum.fl_str_mv	911ae52109f2f7c441665539984e0f54 3a4a5d6bb6976e4ab4a65aea231d0dfe 009f5cba5f69d75c09da00b6f53f483a 78d1592e4b00e971336bf2ea8d687484
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_	1805923181597294592

Efficient construction of multi-scale image pyramids for real-time embedded robot vision

Registros relacionados