Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos

Marques, Nuno Filipe Lopes

Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos

Detalhes bibliográficos
Autor(a) principal:	Marques, Nuno Filipe Lopes
Data de Publicação:	2023
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10400.22/23801
Resumo:	A visão computacional e a aprendizagem profunda têm desempenhado um papel cada vez mais importante na automatização de processos industriais, permitindo o desenvolvimento de sistemas inteligentes capazes de realizar tarefas complexas, como a deteção e reconhecimento de objetos. No contexto dos projetos do INEGI (Instituto de Engenharia Mecânica e Gestão Industrial), surge a necessidade de implementar soluções eficientes que combinem estas tecnologias para otimizar a realização de tarefas específicas. Um sistema pick and place, que consiste na identificação e movimentação automatizada de objetos, é amplamente utilizado em várias indústrias, como a automobilística, eletrónica e logística. No entanto, a implementação bem-sucedida deste sistema requer a capacidade de detetar e reconhecer objetos de forma precisa e eficiente. Neste contexto, este estudo propõe um novo workflow baseado em visão computacional e aprendizagem profunda para projetos do INEGI, que visa melhorar o desempenho e a velocidade de implementação de sistemas que recorram a Inteligência Artificial (IA). O objetivo é superar as limitações dos métodos baseados em redes neuronais profundas, que exigem grandes quantidades de dados de treino e são computacionalmente intensivos. Para isso, propõe-se o uso de dados de treino sintéticos, permitindo o treino de uma versão preliminar do sistema ainda antes dos dados reais estarem disponíveis. O estudo envolveu a modelação 3D de ferramentas de oficina selecionadas e a geração de conjuntos de dados recorrendo a técnicas de image augmentation. Foram utilizados modelos pré-treinados para treinar diferentes modelos, com recurso a transfer learning, com base nesses conjuntos de dados. Para a implementação física do sistema pick and place, utilizou-se um braço mecânico KUKA LBR IIWA 14 R820. O desempenho dos modelos de deteção e reconhecimento das ferramentas, bem como o funcionamento do sistema foram avaliados. Comparando um modelo treinado com dados sintéticos e um treinado com dados reais, verificou-se que o modelo treinado com dados reais teve um desempenho superior em todas as métricas. Por outro lado, um conjunto de dados híbrido entre dados reais e dados sintéticos consegue apresentar, em certos casos, resultados superiores ao conjunto de dados puramente real apresentando, no melhor dos casos, um desempenho superior em 2,89% e, no pior dos casos, um desempenho inferior em 0,62%. Além disso, o treino prévio com dados sintéticos permitiu agilizar o processo de anotação das imagens reais e diminuir o número de iterações necessárias para a convergência do modelo. Também foi avaliado se, relativamente à geração de dados sintéticos, seria melhor criar réplicas 3D dos objetos a serem identificados ou então utilizar os modelos disponibilizados pela vasta comunidade que existe na Internet. Concluiu-se que se alcança resultados superiores utilizando a combinação da especificidade criada na réplica 3D com a generalidade adquirida nos diferentes modelos 3D semelhantes disponibilizados por outros. Também se recorreu ao Compute Unified Device Architecture (CUDA) para acelerar o processo de treino, aumentando a velocidade de treino de uma rede neuronal em 524,25%. Os resultados obtidos com este trabalho permitem validar a abordagem proposta.

Metadados do item

id	RCAP_b33360b3c5e032df0589137a17dc8437
oai_identifier_str	oai:recipp.ipp.pt:10400.22/23801
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticosVisão computacionalAprendizagem ProfundaTransfer LearningPick and placeDados de treino sintéticosDeteção de objetosReconhecimento de objetosComputer visionDeep learnObject DetectioningSynthetic Training DataObject RecognitionA visão computacional e a aprendizagem profunda têm desempenhado um papel cada vez mais importante na automatização de processos industriais, permitindo o desenvolvimento de sistemas inteligentes capazes de realizar tarefas complexas, como a deteção e reconhecimento de objetos. No contexto dos projetos do INEGI (Instituto de Engenharia Mecânica e Gestão Industrial), surge a necessidade de implementar soluções eficientes que combinem estas tecnologias para otimizar a realização de tarefas específicas. Um sistema pick and place, que consiste na identificação e movimentação automatizada de objetos, é amplamente utilizado em várias indústrias, como a automobilística, eletrónica e logística. No entanto, a implementação bem-sucedida deste sistema requer a capacidade de detetar e reconhecer objetos de forma precisa e eficiente. Neste contexto, este estudo propõe um novo workflow baseado em visão computacional e aprendizagem profunda para projetos do INEGI, que visa melhorar o desempenho e a velocidade de implementação de sistemas que recorram a Inteligência Artificial (IA). O objetivo é superar as limitações dos métodos baseados em redes neuronais profundas, que exigem grandes quantidades de dados de treino e são computacionalmente intensivos. Para isso, propõe-se o uso de dados de treino sintéticos, permitindo o treino de uma versão preliminar do sistema ainda antes dos dados reais estarem disponíveis. O estudo envolveu a modelação 3D de ferramentas de oficina selecionadas e a geração de conjuntos de dados recorrendo a técnicas de image augmentation. Foram utilizados modelos pré-treinados para treinar diferentes modelos, com recurso a transfer learning, com base nesses conjuntos de dados. Para a implementação física do sistema pick and place, utilizou-se um braço mecânico KUKA LBR IIWA 14 R820. O desempenho dos modelos de deteção e reconhecimento das ferramentas, bem como o funcionamento do sistema foram avaliados. Comparando um modelo treinado com dados sintéticos e um treinado com dados reais, verificou-se que o modelo treinado com dados reais teve um desempenho superior em todas as métricas. Por outro lado, um conjunto de dados híbrido entre dados reais e dados sintéticos consegue apresentar, em certos casos, resultados superiores ao conjunto de dados puramente real apresentando, no melhor dos casos, um desempenho superior em 2,89% e, no pior dos casos, um desempenho inferior em 0,62%. Além disso, o treino prévio com dados sintéticos permitiu agilizar o processo de anotação das imagens reais e diminuir o número de iterações necessárias para a convergência do modelo. Também foi avaliado se, relativamente à geração de dados sintéticos, seria melhor criar réplicas 3D dos objetos a serem identificados ou então utilizar os modelos disponibilizados pela vasta comunidade que existe na Internet. Concluiu-se que se alcança resultados superiores utilizando a combinação da especificidade criada na réplica 3D com a generalidade adquirida nos diferentes modelos 3D semelhantes disponibilizados por outros. Também se recorreu ao Compute Unified Device Architecture (CUDA) para acelerar o processo de treino, aumentando a velocidade de treino de uma rede neuronal em 524,25%. Os resultados obtidos com este trabalho permitem validar a abordagem proposta.Computer vision and deep learning have been playing an increasingly important role in automating industrial processes, enabling the development of intelligent systems capable of performing complex tasks such as object detection and recognition. Within the context of the projects at INEGI (Institute of Mechanical Engineering and Industrial Management), there is a need to implement efficient solutions that combine these technologies to optimize the performance of specific tasks. A pick-and-place system, which involves the automated identification and movement of objects, is widely used in various industries such as automotive, electronics, and logistics. However, the successful implementation of this system requires the ability to detect and recognize objects accurately and efficiently. In this context, this study proposes a new workflow based on computer vision and deep learning for INEGI projects, aiming to improve the performance and implementation speed of systems that utilize Artificial Intelligence (AI). The goal is to overcome the limitations of methods based on deep neural networks, which require large amounts of training data and are computationally intensive. To achieve this, the use of synthetic training data is proposed, allowing for the training of a preliminary version of the system even before real data is available. The study involved the 3D modeling of selected tools and the generation of datasets using image augmentation techniques. Pretrained models were utilized to train different models using transfer learning based on these datasets. For the physical implementation of the pick-and-place system, a KUKA LBR IIWA 14 R820 robotic arm was used. The performance of the tool detection and recognition models, as well as the system’s functionality, were evaluated. By comparing a model trained with synthetic data and one trained with real data, it was found that the model trained with real data outperformed in all metrics. On the other hand, a hybrid dataset consisting of real and synthetic data was able to achieve, in certain cases, better results than a purely real dataset, with the best-case scenario showing a performance improvement of 2.89% and the worst-case scenario showing a performance decrease of 0.62%. Additionally, pretraining with synthetic data facilitated the annotation process of real images and reduced the number of iterations required for model convergence. It was also evaluated whether it is better to create 3D replicas of the objects to be identified or to use models available from the vast online community. It was concluded that superior results can be achieved by combining the specificity created in the 3D replicas with the generality acquired from different similar 3D models available from others. CUDA was also utilized to accelerate the training process, resulting in a 524.25% increase in neural network training speed. The results obtained from this work validate the proposed approach.Ferreira, Maria Isabel de Castro Lopes Martins PintoRepositório Científico do Instituto Politécnico do PortoMarques, Nuno Filipe Lopes2023-10-27T14:46:06Z20232023-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/23801TID:203374614porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-01T01:46:36Zoai:recipp.ipp.pt:10400.22/23801Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:26:14.396978Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos
title	Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos
spellingShingle	Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos Marques, Nuno Filipe Lopes Visão computacional Aprendizagem Profunda Transfer Learning Pick and place Dados de treino sintéticos Deteção de objetos Reconhecimento de objetos Computer vision Deep learnObject Detectioning Synthetic Training Data Object Recognition
title_short	Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos
title_full	Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos
title_fullStr	Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos
title_full_unstemmed	Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos
title_sort	Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos
author	Marques, Nuno Filipe Lopes
author_facet	Marques, Nuno Filipe Lopes
author_role	author
dc.contributor.none.fl_str_mv	Ferreira, Maria Isabel de Castro Lopes Martins Pinto Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv	Marques, Nuno Filipe Lopes
dc.subject.por.fl_str_mv	Visão computacional Aprendizagem Profunda Transfer Learning Pick and place Dados de treino sintéticos Deteção de objetos Reconhecimento de objetos Computer vision Deep learnObject Detectioning Synthetic Training Data Object Recognition
topic	Visão computacional Aprendizagem Profunda Transfer Learning Pick and place Dados de treino sintéticos Deteção de objetos Reconhecimento de objetos Computer vision Deep learnObject Detectioning Synthetic Training Data Object Recognition
description	A visão computacional e a aprendizagem profunda têm desempenhado um papel cada vez mais importante na automatização de processos industriais, permitindo o desenvolvimento de sistemas inteligentes capazes de realizar tarefas complexas, como a deteção e reconhecimento de objetos. No contexto dos projetos do INEGI (Instituto de Engenharia Mecânica e Gestão Industrial), surge a necessidade de implementar soluções eficientes que combinem estas tecnologias para otimizar a realização de tarefas específicas. Um sistema pick and place, que consiste na identificação e movimentação automatizada de objetos, é amplamente utilizado em várias indústrias, como a automobilística, eletrónica e logística. No entanto, a implementação bem-sucedida deste sistema requer a capacidade de detetar e reconhecer objetos de forma precisa e eficiente. Neste contexto, este estudo propõe um novo workflow baseado em visão computacional e aprendizagem profunda para projetos do INEGI, que visa melhorar o desempenho e a velocidade de implementação de sistemas que recorram a Inteligência Artificial (IA). O objetivo é superar as limitações dos métodos baseados em redes neuronais profundas, que exigem grandes quantidades de dados de treino e são computacionalmente intensivos. Para isso, propõe-se o uso de dados de treino sintéticos, permitindo o treino de uma versão preliminar do sistema ainda antes dos dados reais estarem disponíveis. O estudo envolveu a modelação 3D de ferramentas de oficina selecionadas e a geração de conjuntos de dados recorrendo a técnicas de image augmentation. Foram utilizados modelos pré-treinados para treinar diferentes modelos, com recurso a transfer learning, com base nesses conjuntos de dados. Para a implementação física do sistema pick and place, utilizou-se um braço mecânico KUKA LBR IIWA 14 R820. O desempenho dos modelos de deteção e reconhecimento das ferramentas, bem como o funcionamento do sistema foram avaliados. Comparando um modelo treinado com dados sintéticos e um treinado com dados reais, verificou-se que o modelo treinado com dados reais teve um desempenho superior em todas as métricas. Por outro lado, um conjunto de dados híbrido entre dados reais e dados sintéticos consegue apresentar, em certos casos, resultados superiores ao conjunto de dados puramente real apresentando, no melhor dos casos, um desempenho superior em 2,89% e, no pior dos casos, um desempenho inferior em 0,62%. Além disso, o treino prévio com dados sintéticos permitiu agilizar o processo de anotação das imagens reais e diminuir o número de iterações necessárias para a convergência do modelo. Também foi avaliado se, relativamente à geração de dados sintéticos, seria melhor criar réplicas 3D dos objetos a serem identificados ou então utilizar os modelos disponibilizados pela vasta comunidade que existe na Internet. Concluiu-se que se alcança resultados superiores utilizando a combinação da especificidade criada na réplica 3D com a generalidade adquirida nos diferentes modelos 3D semelhantes disponibilizados por outros. Também se recorreu ao Compute Unified Device Architecture (CUDA) para acelerar o processo de treino, aumentando a velocidade de treino de uma rede neuronal em 524,25%. Os resultados obtidos com este trabalho permitem validar a abordagem proposta.
publishDate	2023
dc.date.none.fl_str_mv	2023-10-27T14:46:06Z 2023 2023-01-01T00:00:00Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10400.22/23801 TID:203374614
url	http://hdl.handle.net/10400.22/23801
identifier_str_mv	TID:203374614
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799134144580550656

Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos

Registros relacionados