Detecção de objetos em 6-DoF em tempo real utilizando técnicas de aprendizagem profunda

Detalhes bibliográficos
Autor(a) principal: CUNHA, Kelvin Batista da
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPE
Texto Completo: https://repositorio.ufpe.br/handle/123456789/35367
Resumo: Detecção e rastreamento em seis graus de liberdade (6-DoF, six Degrees-of-Freedom) são problemas amplamente estudados na área de Visão Computacional. É possível encontrar aplicações que utilizam detecção 6-DoF em áreas como realidade aumentada, robótica, interação avançada, entre outras. As técnicas desenvolvidas podem utilizar diversos tipos de sensores, com prevalência de técnicas baseadas em sensores RGB ou RGBD. Para utilizar apenas informações RGB, houve um recente avanço com a utilização de técnicas baseadas em aprendizagem profunda. Para tal, os métodos propostos geralmente utilizam modelos mais complexos para lidar com a falta da informação de profundidade. Devido a isto, a performance do algoritmo é prejudicada, realizando, em alguns casos, a estimação de pose dependente de pós-processamento que prejudica o tempo de execução do algoritmo. Nesse contexto, esta dissertação visa avaliar a aplicabilidade das recentes técnicas de aprendizagem profunda para realizar a detecção de objetos 3D com 6 graus de liberdade. O principal objetivo é o desenvolvimento de uma técnica para estimação da pose em tempo real utilizando apenas câmeras RGB com o uso de aprendizagem profunda, bem como avaliar as limitações e perspectivas de seu uso para identificação de oportunidades. Para alcançar o objetivo, foi escolhido um método base para desenvolvimento, a partir das principais características obtidas na revisão da literatura. Os resultados foram validados através da utilização da base de dados pública LINEMOD. Em seguida, foram analisados detalhadamente seus pontos de robustez e falhas para diferentes cenários. Posteriormente, foi gerado um conjunto de dados para avaliar como o método se comporta para cenários genéricos, variando características de iluminação, ambiente, parâmetros de câmeras e movimento da cena. Nestes cenários, o método conseguiu obter resultados compatíveis com o estado da arte para casos em que aparecem imagens borradas, ambientes poluídos e oclusão parcial do objeto. Para casos em que foram utilizadas imagens de diferentes câmeras de testes e mudanças de ambiente, o método obteve baixo desempenho, demonstrando pontos de melhoria. Para melhorar o comportamento da técnica nestes cenários, foi gerado um conjunto de imagens sintéticas, com adaptação do domínio e randomização do domínio. A utilização das imagens sintéticas possibilitou avaliar a potencial melhoria de precisão do modelo nos cenários genéricos.
id UFPE_f0c324ef90cec394662237639afbd8a2
oai_identifier_str oai:repositorio.ufpe.br:123456789/35367
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str 2221
spelling CUNHA, Kelvin Batista dahttp://lattes.cnpq.br/6273055129358941http://lattes.cnpq.br/3355338790654065http://lattes.cnpq.br/4321649532287831TEICHRIEB, VeronicaSIMÕES, Francisco Paulo Magalhães2019-11-29T16:57:35Z2019-11-29T16:57:35Z2019-02-22CUNHA, Kelvin Batista da. Detecção de objetos em 6-DoF em tempo real utilizando técnicas de aprendizagem profunda. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2019.https://repositorio.ufpe.br/handle/123456789/35367Detecção e rastreamento em seis graus de liberdade (6-DoF, six Degrees-of-Freedom) são problemas amplamente estudados na área de Visão Computacional. É possível encontrar aplicações que utilizam detecção 6-DoF em áreas como realidade aumentada, robótica, interação avançada, entre outras. As técnicas desenvolvidas podem utilizar diversos tipos de sensores, com prevalência de técnicas baseadas em sensores RGB ou RGBD. Para utilizar apenas informações RGB, houve um recente avanço com a utilização de técnicas baseadas em aprendizagem profunda. Para tal, os métodos propostos geralmente utilizam modelos mais complexos para lidar com a falta da informação de profundidade. Devido a isto, a performance do algoritmo é prejudicada, realizando, em alguns casos, a estimação de pose dependente de pós-processamento que prejudica o tempo de execução do algoritmo. Nesse contexto, esta dissertação visa avaliar a aplicabilidade das recentes técnicas de aprendizagem profunda para realizar a detecção de objetos 3D com 6 graus de liberdade. O principal objetivo é o desenvolvimento de uma técnica para estimação da pose em tempo real utilizando apenas câmeras RGB com o uso de aprendizagem profunda, bem como avaliar as limitações e perspectivas de seu uso para identificação de oportunidades. Para alcançar o objetivo, foi escolhido um método base para desenvolvimento, a partir das principais características obtidas na revisão da literatura. Os resultados foram validados através da utilização da base de dados pública LINEMOD. Em seguida, foram analisados detalhadamente seus pontos de robustez e falhas para diferentes cenários. Posteriormente, foi gerado um conjunto de dados para avaliar como o método se comporta para cenários genéricos, variando características de iluminação, ambiente, parâmetros de câmeras e movimento da cena. Nestes cenários, o método conseguiu obter resultados compatíveis com o estado da arte para casos em que aparecem imagens borradas, ambientes poluídos e oclusão parcial do objeto. Para casos em que foram utilizadas imagens de diferentes câmeras de testes e mudanças de ambiente, o método obteve baixo desempenho, demonstrando pontos de melhoria. Para melhorar o comportamento da técnica nestes cenários, foi gerado um conjunto de imagens sintéticas, com adaptação do domínio e randomização do domínio. A utilização das imagens sintéticas possibilitou avaliar a potencial melhoria de precisão do modelo nos cenários genéricos.CNPqDetection and tracking in six degrees of freedom (6-DoF) are tasks widely studied in computer vision. It is possible to find applications that use 6-DoF detection in areas such as augmented reality, robotics, advanced interaction, among others. The developed techniques can use several types of sensors, with prevalence of techniques based on RGB or RGBD sensors. The methods based on RGB information received a recent advance influenced by deep learning methods. To do so, the proposed methods generally use more complex models to deal with the lack of depth information. Due to this, the performance of the algorithm is impacted, requiring in some cases post-processing responsible of even more impact on the algorithm execution time. In this context, this dissertation aims to evaluate the applicability of recent deep learning techniques to detect 3D objects with six degrees of freedom. The main objective is to develop a technique for estimating a 6-DoF pose in real time using only RGB cameras with the use of deep learning, as well as to evaluate the limitations and perspectives of its use to identify future opportunities. To reach the objective, a basic method for development was chosen, based on the main characteristics obtained from the literature review. The results were validated through the use of the public dataset called LINEMOD. Then, its robustness points and failures for different scenarios was analyzed in detail. Later, a dataset was generated to evaluate how the method behaves for generic scenarios, varying lighting characteristics, environment, camera parameters and camera motion. In these scenarios, the method was able to obtain results compatible with the state of the art for cases in which blurred images appear, polluted environments and partial occlusion of the object. For cases where images from different test cameras and environment changes were used, the method performed poorly, demonstrating improvement points. To improve the behavior of the technique in these scenarios, a set of synthetic images was generated, with domain adaptation and domain randomization. The use of synthetic images made it possible to evaluate the potential improvement of model accuracy in the generic scenarios.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessVisão computacionalMídia e interaçãoDetecção de objetos em 6-DoF em tempo real utilizando técnicas de aprendizagem profundainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPEORIGINALDISSERTAÇÃO Kelvin Batista da Cunha.pdfDISSERTAÇÃO Kelvin Batista da Cunha.pdfapplication/pdf9038140https://repositorio.ufpe.br/bitstream/123456789/35367/1/DISSERTA%c3%87%c3%83O%20Kelvin%20Batista%20da%20Cunha.pdfcce8cc3329c100a929751fdfdc06df96MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/35367/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.ufpe.br/bitstream/123456789/35367/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD53TEXTDISSERTAÇÃO Kelvin Batista da Cunha.pdf.txtDISSERTAÇÃO Kelvin Batista da Cunha.pdf.txtExtracted texttext/plain180852https://repositorio.ufpe.br/bitstream/123456789/35367/4/DISSERTA%c3%87%c3%83O%20Kelvin%20Batista%20da%20Cunha.pdf.txt7303786eaa7f5bfaf9f138061ba0c23cMD54THUMBNAILDISSERTAÇÃO Kelvin Batista da Cunha.pdf.jpgDISSERTAÇÃO Kelvin Batista da Cunha.pdf.jpgGenerated Thumbnailimage/jpeg1250https://repositorio.ufpe.br/bitstream/123456789/35367/5/DISSERTA%c3%87%c3%83O%20Kelvin%20Batista%20da%20Cunha.pdf.jpg8c4b43c3afc6c78e99045a04eb7f28a0MD55123456789/353672019-11-30 02:10:28.942oai:repositorio.ufpe.br:123456789/35367Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-11-30T05:10:28Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Detecção de objetos em 6-DoF em tempo real utilizando técnicas de aprendizagem profunda
title Detecção de objetos em 6-DoF em tempo real utilizando técnicas de aprendizagem profunda
spellingShingle Detecção de objetos em 6-DoF em tempo real utilizando técnicas de aprendizagem profunda
CUNHA, Kelvin Batista da
Visão computacional
Mídia e interação
title_short Detecção de objetos em 6-DoF em tempo real utilizando técnicas de aprendizagem profunda
title_full Detecção de objetos em 6-DoF em tempo real utilizando técnicas de aprendizagem profunda
title_fullStr Detecção de objetos em 6-DoF em tempo real utilizando técnicas de aprendizagem profunda
title_full_unstemmed Detecção de objetos em 6-DoF em tempo real utilizando técnicas de aprendizagem profunda
title_sort Detecção de objetos em 6-DoF em tempo real utilizando técnicas de aprendizagem profunda
author CUNHA, Kelvin Batista da
author_facet CUNHA, Kelvin Batista da
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/6273055129358941
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/3355338790654065
dc.contributor.advisor-coLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/4321649532287831
dc.contributor.author.fl_str_mv CUNHA, Kelvin Batista da
dc.contributor.advisor1.fl_str_mv TEICHRIEB, Veronica
dc.contributor.advisor-co1.fl_str_mv SIMÕES, Francisco Paulo Magalhães
contributor_str_mv TEICHRIEB, Veronica
SIMÕES, Francisco Paulo Magalhães
dc.subject.por.fl_str_mv Visão computacional
Mídia e interação
topic Visão computacional
Mídia e interação
description Detecção e rastreamento em seis graus de liberdade (6-DoF, six Degrees-of-Freedom) são problemas amplamente estudados na área de Visão Computacional. É possível encontrar aplicações que utilizam detecção 6-DoF em áreas como realidade aumentada, robótica, interação avançada, entre outras. As técnicas desenvolvidas podem utilizar diversos tipos de sensores, com prevalência de técnicas baseadas em sensores RGB ou RGBD. Para utilizar apenas informações RGB, houve um recente avanço com a utilização de técnicas baseadas em aprendizagem profunda. Para tal, os métodos propostos geralmente utilizam modelos mais complexos para lidar com a falta da informação de profundidade. Devido a isto, a performance do algoritmo é prejudicada, realizando, em alguns casos, a estimação de pose dependente de pós-processamento que prejudica o tempo de execução do algoritmo. Nesse contexto, esta dissertação visa avaliar a aplicabilidade das recentes técnicas de aprendizagem profunda para realizar a detecção de objetos 3D com 6 graus de liberdade. O principal objetivo é o desenvolvimento de uma técnica para estimação da pose em tempo real utilizando apenas câmeras RGB com o uso de aprendizagem profunda, bem como avaliar as limitações e perspectivas de seu uso para identificação de oportunidades. Para alcançar o objetivo, foi escolhido um método base para desenvolvimento, a partir das principais características obtidas na revisão da literatura. Os resultados foram validados através da utilização da base de dados pública LINEMOD. Em seguida, foram analisados detalhadamente seus pontos de robustez e falhas para diferentes cenários. Posteriormente, foi gerado um conjunto de dados para avaliar como o método se comporta para cenários genéricos, variando características de iluminação, ambiente, parâmetros de câmeras e movimento da cena. Nestes cenários, o método conseguiu obter resultados compatíveis com o estado da arte para casos em que aparecem imagens borradas, ambientes poluídos e oclusão parcial do objeto. Para casos em que foram utilizadas imagens de diferentes câmeras de testes e mudanças de ambiente, o método obteve baixo desempenho, demonstrando pontos de melhoria. Para melhorar o comportamento da técnica nestes cenários, foi gerado um conjunto de imagens sintéticas, com adaptação do domínio e randomização do domínio. A utilização das imagens sintéticas possibilitou avaliar a potencial melhoria de precisão do modelo nos cenários genéricos.
publishDate 2019
dc.date.accessioned.fl_str_mv 2019-11-29T16:57:35Z
dc.date.available.fl_str_mv 2019-11-29T16:57:35Z
dc.date.issued.fl_str_mv 2019-02-22
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv CUNHA, Kelvin Batista da. Detecção de objetos em 6-DoF em tempo real utilizando técnicas de aprendizagem profunda. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2019.
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/35367
identifier_str_mv CUNHA, Kelvin Batista da. Detecção de objetos em 6-DoF em tempo real utilizando técnicas de aprendizagem profunda. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2019.
url https://repositorio.ufpe.br/handle/123456789/35367
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/35367/1/DISSERTA%c3%87%c3%83O%20Kelvin%20Batista%20da%20Cunha.pdf
https://repositorio.ufpe.br/bitstream/123456789/35367/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/35367/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/35367/4/DISSERTA%c3%87%c3%83O%20Kelvin%20Batista%20da%20Cunha.pdf.txt
https://repositorio.ufpe.br/bitstream/123456789/35367/5/DISSERTA%c3%87%c3%83O%20Kelvin%20Batista%20da%20Cunha.pdf.jpg
bitstream.checksum.fl_str_mv cce8cc3329c100a929751fdfdc06df96
e39d27027a6cc9cb039ad269a5db8e34
8a4605be74aa9ea9d79846c1fba20a33
7303786eaa7f5bfaf9f138061ba0c23c
8c4b43c3afc6c78e99045a04eb7f28a0
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1802310706107777024