Sistema de perceção visual com recurso a tecnologia de smartphones

Detalhes bibliográficos
Autor(a) principal: Pereira, Sara Raquel Monteiro da Silva
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.22/24001
Resumo: Na presente dissertação, desenvolvida no INESC TEC (Instituto de Engenharia de Sistemas e Computadores, Tecnologia e Ciência) nos laboratórios do CRIIS (Center for Robotics in Industry and Intelligent Systems), pretende-se explorar a capacidade de modelos deep learning no ambiente Android, através da comparação e avaliação de modelos YOLOv5 (YOLOv5s e YOLOv5n), YOLOv8 e Single Shot Multibox De tector (SSD) MobileNetv2. Este tópico encontra-se inserido no desenvolvimento do projeto Orioos – Solução robótica autónoma de baixo custo para a monitorização e a fenotipagem de culturas permanentes. Este consiste num robô em que o sistema de visão e perceção do ambiente é exclusivo a uma aplicação Android. Além de reduzir significativamente o custo do robô, esta abordagem permite uma reutilização/reciclagem de smartphones mais antigos. Para o treino dos modelos foram utilizados 2 datasets de uvas e troncos de videira, disponíveis online, e foi criado um dataset de QR codes envolvidos na vinha. Como resultado dos treinos, utilizou-se a ferramenta FittyOne e um dataset de teste com imagens que os modelos nunca analisaram, de modo a comparar os resultados de ground truth com deteções efetuadas por cada modelo com uma confiança igual ou superior a 25 %. Verificou-se que os modelos YOLOv5n, YOLOv5s e YO LOv8n destacaram-se com os resultados mais positivos. A deteção de QR codes apresentou valores mais elevados de precisão, seguida da identificação de uvas. Na deteção de troncos, os modelos obtiveram valores menos positivos, sendo que o valor mais elevado de F1 score foi de 23 %. De todos os modelos, o modelo SSD MobineNetv2 apresentou, nas deteções de uvas e de troncos, resultados menos satisfatórios. Relativamente ao tempo de processamento no CPU de um computador, os modelos SSD MobineNetv2, YOLOv5n, YOLOV5s e YOLOv8n destacaram-se com valores inferiores a 600 milissegundos. Após a análise num computador, foram realizados 3 testes de campo para avaliar os modelos YOLOv5s, YOLOv5n e SSD MobineNetv2 num smartphone. Os modelos YOLO destacaram-se com o maior número de deteções correctas e as mais elevadas precisões. Na mesma área de análise, o modelo SSD MobineNetv2 necessitou de uma maior proximidade do objeto para que este fosse detectado. Posteriormente, foram analisados os tempos de processamento no CPU de um smartphone e verificou-se que os valores mais baixos são do modelo SSD MobineNetv2. Este modelo revelou-se 33 % mais rápido do que o modelo YOLOv5n, o modelo mais rápido da rede YOLO.O modelo YOLOv5s, apesar de ter mais precisão na deteção, tem um tempo de inferência mais longo, pelo que não consegue acompanhar as mudanças de perspetiva. Para a aplicação Orioos, foi adicionada a capacidade de descodificar os QR codes quando estes são detetados por uma rede neural. A identificação e descodificação de QR Codes permitirá ao robô ter informação externa, como a informação da docking station mais próxima, ou a localização precisa do local, de forma a eliminar erros incrementais que existem na navegação autónoma.
id RCAP_16eac317c1bec2c9cbd908b81c330488
oai_identifier_str oai:recipp.ipp.pt:10400.22/24001
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Sistema de perceção visual com recurso a tecnologia de smartphonesVisual perception system using smartphone technologydeep learningvisão por computadordatasetrobótica na agriculturadeteção de frutosaplicação móvelinferênciaredes neuronaisandroidDomínio/Área Científica::Engenharia e TecnologiaNa presente dissertação, desenvolvida no INESC TEC (Instituto de Engenharia de Sistemas e Computadores, Tecnologia e Ciência) nos laboratórios do CRIIS (Center for Robotics in Industry and Intelligent Systems), pretende-se explorar a capacidade de modelos deep learning no ambiente Android, através da comparação e avaliação de modelos YOLOv5 (YOLOv5s e YOLOv5n), YOLOv8 e Single Shot Multibox De tector (SSD) MobileNetv2. Este tópico encontra-se inserido no desenvolvimento do projeto Orioos – Solução robótica autónoma de baixo custo para a monitorização e a fenotipagem de culturas permanentes. Este consiste num robô em que o sistema de visão e perceção do ambiente é exclusivo a uma aplicação Android. Além de reduzir significativamente o custo do robô, esta abordagem permite uma reutilização/reciclagem de smartphones mais antigos. Para o treino dos modelos foram utilizados 2 datasets de uvas e troncos de videira, disponíveis online, e foi criado um dataset de QR codes envolvidos na vinha. Como resultado dos treinos, utilizou-se a ferramenta FittyOne e um dataset de teste com imagens que os modelos nunca analisaram, de modo a comparar os resultados de ground truth com deteções efetuadas por cada modelo com uma confiança igual ou superior a 25 %. Verificou-se que os modelos YOLOv5n, YOLOv5s e YO LOv8n destacaram-se com os resultados mais positivos. A deteção de QR codes apresentou valores mais elevados de precisão, seguida da identificação de uvas. Na deteção de troncos, os modelos obtiveram valores menos positivos, sendo que o valor mais elevado de F1 score foi de 23 %. De todos os modelos, o modelo SSD MobineNetv2 apresentou, nas deteções de uvas e de troncos, resultados menos satisfatórios. Relativamente ao tempo de processamento no CPU de um computador, os modelos SSD MobineNetv2, YOLOv5n, YOLOV5s e YOLOv8n destacaram-se com valores inferiores a 600 milissegundos. Após a análise num computador, foram realizados 3 testes de campo para avaliar os modelos YOLOv5s, YOLOv5n e SSD MobineNetv2 num smartphone. Os modelos YOLO destacaram-se com o maior número de deteções correctas e as mais elevadas precisões. Na mesma área de análise, o modelo SSD MobineNetv2 necessitou de uma maior proximidade do objeto para que este fosse detectado. Posteriormente, foram analisados os tempos de processamento no CPU de um smartphone e verificou-se que os valores mais baixos são do modelo SSD MobineNetv2. Este modelo revelou-se 33 % mais rápido do que o modelo YOLOv5n, o modelo mais rápido da rede YOLO.O modelo YOLOv5s, apesar de ter mais precisão na deteção, tem um tempo de inferência mais longo, pelo que não consegue acompanhar as mudanças de perspetiva. Para a aplicação Orioos, foi adicionada a capacidade de descodificar os QR codes quando estes são detetados por uma rede neural. A identificação e descodificação de QR Codes permitirá ao robô ter informação externa, como a informação da docking station mais próxima, ou a localização precisa do local, de forma a eliminar erros incrementais que existem na navegação autónoma.In this dissertation, developed at INESC TEC (Institute of Systems and Computer Engineering, Technology and Science) in the CRIIS (Center for Robotics in Indus try and Intelligent Systems) laboratories, we intend to explore the capacity of deep learning models in the Android environment, through the comparison and evalu ation of models YOLOv5 (YOLOv5s and YOLOv5n), YOLOv8 and Single Shot Multibox Detector (SSD) Mobilenet v2. This topic is inserted in the development of the Orioos project - Low cost autonomous robotic solution for monitoring and phenotyping of permanent cultures. This consists of a robot in which the vision and environment perception system is exclusive to a Android application. This approach significantly reduces the cost of the robot and allows for reutilization/recycling of older smartphones. For training the models, 2 datasets of grapes and vine trunks, available online, were used and a dataset of QR codes involved in the vineyard was created. As a result of the training, we used the FittyOne tool and a test dataset with images that the models have never analyzed, in order to compare the results of ground truth with detections made by each model with a confidence equal to or greater than 25 %. It was found that the YOLOv5n, YOLOv5s and YOLOv8n models stood out with the most positive results. The detection of QR codes showed higher accuracy values, followed by the identification of grapes. In trunk detection, the models obtained less successful results, with the highest F1 score value being 23 %. Of all the models, the model MobineNetv2 presented, in the detections of grapes and trunks, less satisfactory results. Regarding the processing time on a laptop CPU, the models SSD MobineNetv2, YOLOv5n, YOLOV5s and YOLOv8n stood out with values below 600 milliseconds. After the analysis on a computer, 3 field tests were performed to evaluate the YOLOv5s, YOLOv5n and SSD MobineNetv2 models on a smartphone. The YOLO models stood out with the highest number of correct detections and the highest ac curacies. In the same analysis area, the SSD MobineNetv2 model required a greater proximity to the object for it to be detected. Subsequently, the processing times in the CPU of an smartphone were analyzed and it was found that the lowest values are from the SSD model MobineNetv2. This model proved to be 33 % faster than the YOLOv5n model, the fastest model in the YOLO network. The YOLOv5s model, despite having more accuracy in detection, has a longer inference time, so it cannot keep up with perspective changes. For the Orioos application, the ability to decode QR codes was added when they are detected by a neural network. The identification and decoding of QR Codes will allow the robot to have external information, such as the information of the nearest docking station, or the precise location, in order to eliminate incremental errors that exist in autonomous navigation.Dias, André Miguel PinheiroRepositório Científico do Instituto Politécnico do PortoPereira, Sara Raquel Monteiro da Silva2023-11-27T16:03:33Z2023-07-262023-07-26T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/24001TID:203381076porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-29T01:48:16Zoai:recipp.ipp.pt:10400.22/24001Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T23:20:01.284145Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Sistema de perceção visual com recurso a tecnologia de smartphones
Visual perception system using smartphone technology
title Sistema de perceção visual com recurso a tecnologia de smartphones
spellingShingle Sistema de perceção visual com recurso a tecnologia de smartphones
Pereira, Sara Raquel Monteiro da Silva
deep learning
visão por computador
dataset
robótica na agricultura
deteção de frutos
aplicação móvel
inferência
redes neuronais
android
Domínio/Área Científica::Engenharia e Tecnologia
title_short Sistema de perceção visual com recurso a tecnologia de smartphones
title_full Sistema de perceção visual com recurso a tecnologia de smartphones
title_fullStr Sistema de perceção visual com recurso a tecnologia de smartphones
title_full_unstemmed Sistema de perceção visual com recurso a tecnologia de smartphones
title_sort Sistema de perceção visual com recurso a tecnologia de smartphones
author Pereira, Sara Raquel Monteiro da Silva
author_facet Pereira, Sara Raquel Monteiro da Silva
author_role author
dc.contributor.none.fl_str_mv Dias, André Miguel Pinheiro
Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv Pereira, Sara Raquel Monteiro da Silva
dc.subject.por.fl_str_mv deep learning
visão por computador
dataset
robótica na agricultura
deteção de frutos
aplicação móvel
inferência
redes neuronais
android
Domínio/Área Científica::Engenharia e Tecnologia
topic deep learning
visão por computador
dataset
robótica na agricultura
deteção de frutos
aplicação móvel
inferência
redes neuronais
android
Domínio/Área Científica::Engenharia e Tecnologia
description Na presente dissertação, desenvolvida no INESC TEC (Instituto de Engenharia de Sistemas e Computadores, Tecnologia e Ciência) nos laboratórios do CRIIS (Center for Robotics in Industry and Intelligent Systems), pretende-se explorar a capacidade de modelos deep learning no ambiente Android, através da comparação e avaliação de modelos YOLOv5 (YOLOv5s e YOLOv5n), YOLOv8 e Single Shot Multibox De tector (SSD) MobileNetv2. Este tópico encontra-se inserido no desenvolvimento do projeto Orioos – Solução robótica autónoma de baixo custo para a monitorização e a fenotipagem de culturas permanentes. Este consiste num robô em que o sistema de visão e perceção do ambiente é exclusivo a uma aplicação Android. Além de reduzir significativamente o custo do robô, esta abordagem permite uma reutilização/reciclagem de smartphones mais antigos. Para o treino dos modelos foram utilizados 2 datasets de uvas e troncos de videira, disponíveis online, e foi criado um dataset de QR codes envolvidos na vinha. Como resultado dos treinos, utilizou-se a ferramenta FittyOne e um dataset de teste com imagens que os modelos nunca analisaram, de modo a comparar os resultados de ground truth com deteções efetuadas por cada modelo com uma confiança igual ou superior a 25 %. Verificou-se que os modelos YOLOv5n, YOLOv5s e YO LOv8n destacaram-se com os resultados mais positivos. A deteção de QR codes apresentou valores mais elevados de precisão, seguida da identificação de uvas. Na deteção de troncos, os modelos obtiveram valores menos positivos, sendo que o valor mais elevado de F1 score foi de 23 %. De todos os modelos, o modelo SSD MobineNetv2 apresentou, nas deteções de uvas e de troncos, resultados menos satisfatórios. Relativamente ao tempo de processamento no CPU de um computador, os modelos SSD MobineNetv2, YOLOv5n, YOLOV5s e YOLOv8n destacaram-se com valores inferiores a 600 milissegundos. Após a análise num computador, foram realizados 3 testes de campo para avaliar os modelos YOLOv5s, YOLOv5n e SSD MobineNetv2 num smartphone. Os modelos YOLO destacaram-se com o maior número de deteções correctas e as mais elevadas precisões. Na mesma área de análise, o modelo SSD MobineNetv2 necessitou de uma maior proximidade do objeto para que este fosse detectado. Posteriormente, foram analisados os tempos de processamento no CPU de um smartphone e verificou-se que os valores mais baixos são do modelo SSD MobineNetv2. Este modelo revelou-se 33 % mais rápido do que o modelo YOLOv5n, o modelo mais rápido da rede YOLO.O modelo YOLOv5s, apesar de ter mais precisão na deteção, tem um tempo de inferência mais longo, pelo que não consegue acompanhar as mudanças de perspetiva. Para a aplicação Orioos, foi adicionada a capacidade de descodificar os QR codes quando estes são detetados por uma rede neural. A identificação e descodificação de QR Codes permitirá ao robô ter informação externa, como a informação da docking station mais próxima, ou a localização precisa do local, de forma a eliminar erros incrementais que existem na navegação autónoma.
publishDate 2023
dc.date.none.fl_str_mv 2023-11-27T16:03:33Z
2023-07-26
2023-07-26T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.22/24001
TID:203381076
url http://hdl.handle.net/10400.22/24001
identifier_str_mv TID:203381076
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799135499179261952