Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.22/23801 |
Resumo: | A visão computacional e a aprendizagem profunda têm desempenhado um papel cada vez mais importante na automatização de processos industriais, permitindo o desenvolvimento de sistemas inteligentes capazes de realizar tarefas complexas, como a deteção e reconhecimento de objetos. No contexto dos projetos do INEGI (Instituto de Engenharia Mecânica e Gestão Industrial), surge a necessidade de implementar soluções eficientes que combinem estas tecnologias para otimizar a realização de tarefas específicas. Um sistema pick and place, que consiste na identificação e movimentação automatizada de objetos, é amplamente utilizado em várias indústrias, como a automobilística, eletrónica e logística. No entanto, a implementação bem-sucedida deste sistema requer a capacidade de detetar e reconhecer objetos de forma precisa e eficiente. Neste contexto, este estudo propõe um novo workflow baseado em visão computacional e aprendizagem profunda para projetos do INEGI, que visa melhorar o desempenho e a velocidade de implementação de sistemas que recorram a Inteligência Artificial (IA). O objetivo é superar as limitações dos métodos baseados em redes neuronais profundas, que exigem grandes quantidades de dados de treino e são computacionalmente intensivos. Para isso, propõe-se o uso de dados de treino sintéticos, permitindo o treino de uma versão preliminar do sistema ainda antes dos dados reais estarem disponíveis. O estudo envolveu a modelação 3D de ferramentas de oficina selecionadas e a geração de conjuntos de dados recorrendo a técnicas de image augmentation. Foram utilizados modelos pré-treinados para treinar diferentes modelos, com recurso a transfer learning, com base nesses conjuntos de dados. Para a implementação física do sistema pick and place, utilizou-se um braço mecânico KUKA LBR IIWA 14 R820. O desempenho dos modelos de deteção e reconhecimento das ferramentas, bem como o funcionamento do sistema foram avaliados. Comparando um modelo treinado com dados sintéticos e um treinado com dados reais, verificou-se que o modelo treinado com dados reais teve um desempenho superior em todas as métricas. Por outro lado, um conjunto de dados híbrido entre dados reais e dados sintéticos consegue apresentar, em certos casos, resultados superiores ao conjunto de dados puramente real apresentando, no melhor dos casos, um desempenho superior em 2,89% e, no pior dos casos, um desempenho inferior em 0,62%. Além disso, o treino prévio com dados sintéticos permitiu agilizar o processo de anotação das imagens reais e diminuir o número de iterações necessárias para a convergência do modelo. Também foi avaliado se, relativamente à geração de dados sintéticos, seria melhor criar réplicas 3D dos objetos a serem identificados ou então utilizar os modelos disponibilizados pela vasta comunidade que existe na Internet. Concluiu-se que se alcança resultados superiores utilizando a combinação da especificidade criada na réplica 3D com a generalidade adquirida nos diferentes modelos 3D semelhantes disponibilizados por outros. Também se recorreu ao Compute Unified Device Architecture (CUDA) para acelerar o processo de treino, aumentando a velocidade de treino de uma rede neuronal em 524,25%. Os resultados obtidos com este trabalho permitem validar a abordagem proposta. |
id |
RCAP_b33360b3c5e032df0589137a17dc8437 |
---|---|
oai_identifier_str |
oai:recipp.ipp.pt:10400.22/23801 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticosVisão computacionalAprendizagem ProfundaTransfer LearningPick and placeDados de treino sintéticosDeteção de objetosReconhecimento de objetosComputer visionDeep learnObject DetectioningSynthetic Training DataObject RecognitionA visão computacional e a aprendizagem profunda têm desempenhado um papel cada vez mais importante na automatização de processos industriais, permitindo o desenvolvimento de sistemas inteligentes capazes de realizar tarefas complexas, como a deteção e reconhecimento de objetos. No contexto dos projetos do INEGI (Instituto de Engenharia Mecânica e Gestão Industrial), surge a necessidade de implementar soluções eficientes que combinem estas tecnologias para otimizar a realização de tarefas específicas. Um sistema pick and place, que consiste na identificação e movimentação automatizada de objetos, é amplamente utilizado em várias indústrias, como a automobilística, eletrónica e logística. No entanto, a implementação bem-sucedida deste sistema requer a capacidade de detetar e reconhecer objetos de forma precisa e eficiente. Neste contexto, este estudo propõe um novo workflow baseado em visão computacional e aprendizagem profunda para projetos do INEGI, que visa melhorar o desempenho e a velocidade de implementação de sistemas que recorram a Inteligência Artificial (IA). O objetivo é superar as limitações dos métodos baseados em redes neuronais profundas, que exigem grandes quantidades de dados de treino e são computacionalmente intensivos. Para isso, propõe-se o uso de dados de treino sintéticos, permitindo o treino de uma versão preliminar do sistema ainda antes dos dados reais estarem disponíveis. O estudo envolveu a modelação 3D de ferramentas de oficina selecionadas e a geração de conjuntos de dados recorrendo a técnicas de image augmentation. Foram utilizados modelos pré-treinados para treinar diferentes modelos, com recurso a transfer learning, com base nesses conjuntos de dados. Para a implementação física do sistema pick and place, utilizou-se um braço mecânico KUKA LBR IIWA 14 R820. O desempenho dos modelos de deteção e reconhecimento das ferramentas, bem como o funcionamento do sistema foram avaliados. Comparando um modelo treinado com dados sintéticos e um treinado com dados reais, verificou-se que o modelo treinado com dados reais teve um desempenho superior em todas as métricas. Por outro lado, um conjunto de dados híbrido entre dados reais e dados sintéticos consegue apresentar, em certos casos, resultados superiores ao conjunto de dados puramente real apresentando, no melhor dos casos, um desempenho superior em 2,89% e, no pior dos casos, um desempenho inferior em 0,62%. Além disso, o treino prévio com dados sintéticos permitiu agilizar o processo de anotação das imagens reais e diminuir o número de iterações necessárias para a convergência do modelo. Também foi avaliado se, relativamente à geração de dados sintéticos, seria melhor criar réplicas 3D dos objetos a serem identificados ou então utilizar os modelos disponibilizados pela vasta comunidade que existe na Internet. Concluiu-se que se alcança resultados superiores utilizando a combinação da especificidade criada na réplica 3D com a generalidade adquirida nos diferentes modelos 3D semelhantes disponibilizados por outros. Também se recorreu ao Compute Unified Device Architecture (CUDA) para acelerar o processo de treino, aumentando a velocidade de treino de uma rede neuronal em 524,25%. Os resultados obtidos com este trabalho permitem validar a abordagem proposta.Computer vision and deep learning have been playing an increasingly important role in automating industrial processes, enabling the development of intelligent systems capable of performing complex tasks such as object detection and recognition. Within the context of the projects at INEGI (Institute of Mechanical Engineering and Industrial Management), there is a need to implement efficient solutions that combine these technologies to optimize the performance of specific tasks. A pick-and-place system, which involves the automated identification and movement of objects, is widely used in various industries such as automotive, electronics, and logistics. However, the successful implementation of this system requires the ability to detect and recognize objects accurately and efficiently. In this context, this study proposes a new workflow based on computer vision and deep learning for INEGI projects, aiming to improve the performance and implementation speed of systems that utilize Artificial Intelligence (AI). The goal is to overcome the limitations of methods based on deep neural networks, which require large amounts of training data and are computationally intensive. To achieve this, the use of synthetic training data is proposed, allowing for the training of a preliminary version of the system even before real data is available. The study involved the 3D modeling of selected tools and the generation of datasets using image augmentation techniques. Pretrained models were utilized to train different models using transfer learning based on these datasets. For the physical implementation of the pick-and-place system, a KUKA LBR IIWA 14 R820 robotic arm was used. The performance of the tool detection and recognition models, as well as the system’s functionality, were evaluated. By comparing a model trained with synthetic data and one trained with real data, it was found that the model trained with real data outperformed in all metrics. On the other hand, a hybrid dataset consisting of real and synthetic data was able to achieve, in certain cases, better results than a purely real dataset, with the best-case scenario showing a performance improvement of 2.89% and the worst-case scenario showing a performance decrease of 0.62%. Additionally, pretraining with synthetic data facilitated the annotation process of real images and reduced the number of iterations required for model convergence. It was also evaluated whether it is better to create 3D replicas of the objects to be identified or to use models available from the vast online community. It was concluded that superior results can be achieved by combining the specificity created in the 3D replicas with the generality acquired from different similar 3D models available from others. CUDA was also utilized to accelerate the training process, resulting in a 524.25% increase in neural network training speed. The results obtained from this work validate the proposed approach.Ferreira, Maria Isabel de Castro Lopes Martins PintoRepositório Científico do Instituto Politécnico do PortoMarques, Nuno Filipe Lopes2023-10-27T14:46:06Z20232023-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/23801TID:203374614porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-01T01:46:36Zoai:recipp.ipp.pt:10400.22/23801Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:26:14.396978Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos |
title |
Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos |
spellingShingle |
Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos Marques, Nuno Filipe Lopes Visão computacional Aprendizagem Profunda Transfer Learning Pick and place Dados de treino sintéticos Deteção de objetos Reconhecimento de objetos Computer vision Deep learnObject Detectioning Synthetic Training Data Object Recognition |
title_short |
Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos |
title_full |
Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos |
title_fullStr |
Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos |
title_full_unstemmed |
Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos |
title_sort |
Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos |
author |
Marques, Nuno Filipe Lopes |
author_facet |
Marques, Nuno Filipe Lopes |
author_role |
author |
dc.contributor.none.fl_str_mv |
Ferreira, Maria Isabel de Castro Lopes Martins Pinto Repositório Científico do Instituto Politécnico do Porto |
dc.contributor.author.fl_str_mv |
Marques, Nuno Filipe Lopes |
dc.subject.por.fl_str_mv |
Visão computacional Aprendizagem Profunda Transfer Learning Pick and place Dados de treino sintéticos Deteção de objetos Reconhecimento de objetos Computer vision Deep learnObject Detectioning Synthetic Training Data Object Recognition |
topic |
Visão computacional Aprendizagem Profunda Transfer Learning Pick and place Dados de treino sintéticos Deteção de objetos Reconhecimento de objetos Computer vision Deep learnObject Detectioning Synthetic Training Data Object Recognition |
description |
A visão computacional e a aprendizagem profunda têm desempenhado um papel cada vez mais importante na automatização de processos industriais, permitindo o desenvolvimento de sistemas inteligentes capazes de realizar tarefas complexas, como a deteção e reconhecimento de objetos. No contexto dos projetos do INEGI (Instituto de Engenharia Mecânica e Gestão Industrial), surge a necessidade de implementar soluções eficientes que combinem estas tecnologias para otimizar a realização de tarefas específicas. Um sistema pick and place, que consiste na identificação e movimentação automatizada de objetos, é amplamente utilizado em várias indústrias, como a automobilística, eletrónica e logística. No entanto, a implementação bem-sucedida deste sistema requer a capacidade de detetar e reconhecer objetos de forma precisa e eficiente. Neste contexto, este estudo propõe um novo workflow baseado em visão computacional e aprendizagem profunda para projetos do INEGI, que visa melhorar o desempenho e a velocidade de implementação de sistemas que recorram a Inteligência Artificial (IA). O objetivo é superar as limitações dos métodos baseados em redes neuronais profundas, que exigem grandes quantidades de dados de treino e são computacionalmente intensivos. Para isso, propõe-se o uso de dados de treino sintéticos, permitindo o treino de uma versão preliminar do sistema ainda antes dos dados reais estarem disponíveis. O estudo envolveu a modelação 3D de ferramentas de oficina selecionadas e a geração de conjuntos de dados recorrendo a técnicas de image augmentation. Foram utilizados modelos pré-treinados para treinar diferentes modelos, com recurso a transfer learning, com base nesses conjuntos de dados. Para a implementação física do sistema pick and place, utilizou-se um braço mecânico KUKA LBR IIWA 14 R820. O desempenho dos modelos de deteção e reconhecimento das ferramentas, bem como o funcionamento do sistema foram avaliados. Comparando um modelo treinado com dados sintéticos e um treinado com dados reais, verificou-se que o modelo treinado com dados reais teve um desempenho superior em todas as métricas. Por outro lado, um conjunto de dados híbrido entre dados reais e dados sintéticos consegue apresentar, em certos casos, resultados superiores ao conjunto de dados puramente real apresentando, no melhor dos casos, um desempenho superior em 2,89% e, no pior dos casos, um desempenho inferior em 0,62%. Além disso, o treino prévio com dados sintéticos permitiu agilizar o processo de anotação das imagens reais e diminuir o número de iterações necessárias para a convergência do modelo. Também foi avaliado se, relativamente à geração de dados sintéticos, seria melhor criar réplicas 3D dos objetos a serem identificados ou então utilizar os modelos disponibilizados pela vasta comunidade que existe na Internet. Concluiu-se que se alcança resultados superiores utilizando a combinação da especificidade criada na réplica 3D com a generalidade adquirida nos diferentes modelos 3D semelhantes disponibilizados por outros. Também se recorreu ao Compute Unified Device Architecture (CUDA) para acelerar o processo de treino, aumentando a velocidade de treino de uma rede neuronal em 524,25%. Os resultados obtidos com este trabalho permitem validar a abordagem proposta. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-10-27T14:46:06Z 2023 2023-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.22/23801 TID:203374614 |
url |
http://hdl.handle.net/10400.22/23801 |
identifier_str_mv |
TID:203374614 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799134144580550656 |