Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos

Detalhes bibliográficos
Autor(a) principal: Marques, Nuno Filipe Lopes
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.22/23801
Resumo: A visão computacional e a aprendizagem profunda têm desempenhado um papel cada vez mais importante na automatização de processos industriais, permitindo o desenvolvimento de sistemas inteligentes capazes de realizar tarefas complexas, como a deteção e reconhecimento de objetos. No contexto dos projetos do INEGI (Instituto de Engenharia Mecânica e Gestão Industrial), surge a necessidade de implementar soluções eficientes que combinem estas tecnologias para otimizar a realização de tarefas específicas. Um sistema pick and place, que consiste na identificação e movimentação automatizada de objetos, é amplamente utilizado em várias indústrias, como a automobilística, eletrónica e logística. No entanto, a implementação bem-sucedida deste sistema requer a capacidade de detetar e reconhecer objetos de forma precisa e eficiente. Neste contexto, este estudo propõe um novo workflow baseado em visão computacional e aprendizagem profunda para projetos do INEGI, que visa melhorar o desempenho e a velocidade de implementação de sistemas que recorram a Inteligência Artificial (IA). O objetivo é superar as limitações dos métodos baseados em redes neuronais profundas, que exigem grandes quantidades de dados de treino e são computacionalmente intensivos. Para isso, propõe-se o uso de dados de treino sintéticos, permitindo o treino de uma versão preliminar do sistema ainda antes dos dados reais estarem disponíveis. O estudo envolveu a modelação 3D de ferramentas de oficina selecionadas e a geração de conjuntos de dados recorrendo a técnicas de image augmentation. Foram utilizados modelos pré-treinados para treinar diferentes modelos, com recurso a transfer learning, com base nesses conjuntos de dados. Para a implementação física do sistema pick and place, utilizou-se um braço mecânico KUKA LBR IIWA 14 R820. O desempenho dos modelos de deteção e reconhecimento das ferramentas, bem como o funcionamento do sistema foram avaliados. Comparando um modelo treinado com dados sintéticos e um treinado com dados reais, verificou-se que o modelo treinado com dados reais teve um desempenho superior em todas as métricas. Por outro lado, um conjunto de dados híbrido entre dados reais e dados sintéticos consegue apresentar, em certos casos, resultados superiores ao conjunto de dados puramente real apresentando, no melhor dos casos, um desempenho superior em 2,89% e, no pior dos casos, um desempenho inferior em 0,62%. Além disso, o treino prévio com dados sintéticos permitiu agilizar o processo de anotação das imagens reais e diminuir o número de iterações necessárias para a convergência do modelo. Também foi avaliado se, relativamente à geração de dados sintéticos, seria melhor criar réplicas 3D dos objetos a serem identificados ou então utilizar os modelos disponibilizados pela vasta comunidade que existe na Internet. Concluiu-se que se alcança resultados superiores utilizando a combinação da especificidade criada na réplica 3D com a generalidade adquirida nos diferentes modelos 3D semelhantes disponibilizados por outros. Também se recorreu ao Compute Unified Device Architecture (CUDA) para acelerar o processo de treino, aumentando a velocidade de treino de uma rede neuronal em 524,25%. Os resultados obtidos com este trabalho permitem validar a abordagem proposta.
id RCAP_b33360b3c5e032df0589137a17dc8437
oai_identifier_str oai:recipp.ipp.pt:10400.22/23801
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticosVisão computacionalAprendizagem ProfundaTransfer LearningPick and placeDados de treino sintéticosDeteção de objetosReconhecimento de objetosComputer visionDeep learnObject DetectioningSynthetic Training DataObject RecognitionA visão computacional e a aprendizagem profunda têm desempenhado um papel cada vez mais importante na automatização de processos industriais, permitindo o desenvolvimento de sistemas inteligentes capazes de realizar tarefas complexas, como a deteção e reconhecimento de objetos. No contexto dos projetos do INEGI (Instituto de Engenharia Mecânica e Gestão Industrial), surge a necessidade de implementar soluções eficientes que combinem estas tecnologias para otimizar a realização de tarefas específicas. Um sistema pick and place, que consiste na identificação e movimentação automatizada de objetos, é amplamente utilizado em várias indústrias, como a automobilística, eletrónica e logística. No entanto, a implementação bem-sucedida deste sistema requer a capacidade de detetar e reconhecer objetos de forma precisa e eficiente. Neste contexto, este estudo propõe um novo workflow baseado em visão computacional e aprendizagem profunda para projetos do INEGI, que visa melhorar o desempenho e a velocidade de implementação de sistemas que recorram a Inteligência Artificial (IA). O objetivo é superar as limitações dos métodos baseados em redes neuronais profundas, que exigem grandes quantidades de dados de treino e são computacionalmente intensivos. Para isso, propõe-se o uso de dados de treino sintéticos, permitindo o treino de uma versão preliminar do sistema ainda antes dos dados reais estarem disponíveis. O estudo envolveu a modelação 3D de ferramentas de oficina selecionadas e a geração de conjuntos de dados recorrendo a técnicas de image augmentation. Foram utilizados modelos pré-treinados para treinar diferentes modelos, com recurso a transfer learning, com base nesses conjuntos de dados. Para a implementação física do sistema pick and place, utilizou-se um braço mecânico KUKA LBR IIWA 14 R820. O desempenho dos modelos de deteção e reconhecimento das ferramentas, bem como o funcionamento do sistema foram avaliados. Comparando um modelo treinado com dados sintéticos e um treinado com dados reais, verificou-se que o modelo treinado com dados reais teve um desempenho superior em todas as métricas. Por outro lado, um conjunto de dados híbrido entre dados reais e dados sintéticos consegue apresentar, em certos casos, resultados superiores ao conjunto de dados puramente real apresentando, no melhor dos casos, um desempenho superior em 2,89% e, no pior dos casos, um desempenho inferior em 0,62%. Além disso, o treino prévio com dados sintéticos permitiu agilizar o processo de anotação das imagens reais e diminuir o número de iterações necessárias para a convergência do modelo. Também foi avaliado se, relativamente à geração de dados sintéticos, seria melhor criar réplicas 3D dos objetos a serem identificados ou então utilizar os modelos disponibilizados pela vasta comunidade que existe na Internet. Concluiu-se que se alcança resultados superiores utilizando a combinação da especificidade criada na réplica 3D com a generalidade adquirida nos diferentes modelos 3D semelhantes disponibilizados por outros. Também se recorreu ao Compute Unified Device Architecture (CUDA) para acelerar o processo de treino, aumentando a velocidade de treino de uma rede neuronal em 524,25%. Os resultados obtidos com este trabalho permitem validar a abordagem proposta.Computer vision and deep learning have been playing an increasingly important role in automating industrial processes, enabling the development of intelligent systems capable of performing complex tasks such as object detection and recognition. Within the context of the projects at INEGI (Institute of Mechanical Engineering and Industrial Management), there is a need to implement efficient solutions that combine these technologies to optimize the performance of specific tasks. A pick-and-place system, which involves the automated identification and movement of objects, is widely used in various industries such as automotive, electronics, and logistics. However, the successful implementation of this system requires the ability to detect and recognize objects accurately and efficiently. In this context, this study proposes a new workflow based on computer vision and deep learning for INEGI projects, aiming to improve the performance and implementation speed of systems that utilize Artificial Intelligence (AI). The goal is to overcome the limitations of methods based on deep neural networks, which require large amounts of training data and are computationally intensive. To achieve this, the use of synthetic training data is proposed, allowing for the training of a preliminary version of the system even before real data is available. The study involved the 3D modeling of selected tools and the generation of datasets using image augmentation techniques. Pretrained models were utilized to train different models using transfer learning based on these datasets. For the physical implementation of the pick-and-place system, a KUKA LBR IIWA 14 R820 robotic arm was used. The performance of the tool detection and recognition models, as well as the system’s functionality, were evaluated. By comparing a model trained with synthetic data and one trained with real data, it was found that the model trained with real data outperformed in all metrics. On the other hand, a hybrid dataset consisting of real and synthetic data was able to achieve, in certain cases, better results than a purely real dataset, with the best-case scenario showing a performance improvement of 2.89% and the worst-case scenario showing a performance decrease of 0.62%. Additionally, pretraining with synthetic data facilitated the annotation process of real images and reduced the number of iterations required for model convergence. It was also evaluated whether it is better to create 3D replicas of the objects to be identified or to use models available from the vast online community. It was concluded that superior results can be achieved by combining the specificity created in the 3D replicas with the generality acquired from different similar 3D models available from others. CUDA was also utilized to accelerate the training process, resulting in a 524.25% increase in neural network training speed. The results obtained from this work validate the proposed approach.Ferreira, Maria Isabel de Castro Lopes Martins PintoRepositório Científico do Instituto Politécnico do PortoMarques, Nuno Filipe Lopes2023-10-27T14:46:06Z20232023-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/23801TID:203374614porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-01T01:46:36Zoai:recipp.ipp.pt:10400.22/23801Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:26:14.396978Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos
title Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos
spellingShingle Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos
Marques, Nuno Filipe Lopes
Visão computacional
Aprendizagem Profunda
Transfer Learning
Pick and place
Dados de treino sintéticos
Deteção de objetos
Reconhecimento de objetos
Computer vision
Deep learnObject Detectioning
Synthetic Training Data
Object Recognition
title_short Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos
title_full Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos
title_fullStr Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos
title_full_unstemmed Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos
title_sort Sistema pick and place baseado numa rede neuronal profunda treinada em dados sintéticos
author Marques, Nuno Filipe Lopes
author_facet Marques, Nuno Filipe Lopes
author_role author
dc.contributor.none.fl_str_mv Ferreira, Maria Isabel de Castro Lopes Martins Pinto
Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv Marques, Nuno Filipe Lopes
dc.subject.por.fl_str_mv Visão computacional
Aprendizagem Profunda
Transfer Learning
Pick and place
Dados de treino sintéticos
Deteção de objetos
Reconhecimento de objetos
Computer vision
Deep learnObject Detectioning
Synthetic Training Data
Object Recognition
topic Visão computacional
Aprendizagem Profunda
Transfer Learning
Pick and place
Dados de treino sintéticos
Deteção de objetos
Reconhecimento de objetos
Computer vision
Deep learnObject Detectioning
Synthetic Training Data
Object Recognition
description A visão computacional e a aprendizagem profunda têm desempenhado um papel cada vez mais importante na automatização de processos industriais, permitindo o desenvolvimento de sistemas inteligentes capazes de realizar tarefas complexas, como a deteção e reconhecimento de objetos. No contexto dos projetos do INEGI (Instituto de Engenharia Mecânica e Gestão Industrial), surge a necessidade de implementar soluções eficientes que combinem estas tecnologias para otimizar a realização de tarefas específicas. Um sistema pick and place, que consiste na identificação e movimentação automatizada de objetos, é amplamente utilizado em várias indústrias, como a automobilística, eletrónica e logística. No entanto, a implementação bem-sucedida deste sistema requer a capacidade de detetar e reconhecer objetos de forma precisa e eficiente. Neste contexto, este estudo propõe um novo workflow baseado em visão computacional e aprendizagem profunda para projetos do INEGI, que visa melhorar o desempenho e a velocidade de implementação de sistemas que recorram a Inteligência Artificial (IA). O objetivo é superar as limitações dos métodos baseados em redes neuronais profundas, que exigem grandes quantidades de dados de treino e são computacionalmente intensivos. Para isso, propõe-se o uso de dados de treino sintéticos, permitindo o treino de uma versão preliminar do sistema ainda antes dos dados reais estarem disponíveis. O estudo envolveu a modelação 3D de ferramentas de oficina selecionadas e a geração de conjuntos de dados recorrendo a técnicas de image augmentation. Foram utilizados modelos pré-treinados para treinar diferentes modelos, com recurso a transfer learning, com base nesses conjuntos de dados. Para a implementação física do sistema pick and place, utilizou-se um braço mecânico KUKA LBR IIWA 14 R820. O desempenho dos modelos de deteção e reconhecimento das ferramentas, bem como o funcionamento do sistema foram avaliados. Comparando um modelo treinado com dados sintéticos e um treinado com dados reais, verificou-se que o modelo treinado com dados reais teve um desempenho superior em todas as métricas. Por outro lado, um conjunto de dados híbrido entre dados reais e dados sintéticos consegue apresentar, em certos casos, resultados superiores ao conjunto de dados puramente real apresentando, no melhor dos casos, um desempenho superior em 2,89% e, no pior dos casos, um desempenho inferior em 0,62%. Além disso, o treino prévio com dados sintéticos permitiu agilizar o processo de anotação das imagens reais e diminuir o número de iterações necessárias para a convergência do modelo. Também foi avaliado se, relativamente à geração de dados sintéticos, seria melhor criar réplicas 3D dos objetos a serem identificados ou então utilizar os modelos disponibilizados pela vasta comunidade que existe na Internet. Concluiu-se que se alcança resultados superiores utilizando a combinação da especificidade criada na réplica 3D com a generalidade adquirida nos diferentes modelos 3D semelhantes disponibilizados por outros. Também se recorreu ao Compute Unified Device Architecture (CUDA) para acelerar o processo de treino, aumentando a velocidade de treino de uma rede neuronal em 524,25%. Os resultados obtidos com este trabalho permitem validar a abordagem proposta.
publishDate 2023
dc.date.none.fl_str_mv 2023-10-27T14:46:06Z
2023
2023-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.22/23801
TID:203374614
url http://hdl.handle.net/10400.22/23801
identifier_str_mv TID:203374614
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134144580550656