Sistema de perceção visual com recurso a tecnologia de smartphones
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.22/24001 |
Resumo: | Na presente dissertação, desenvolvida no INESC TEC (Instituto de Engenharia de Sistemas e Computadores, Tecnologia e Ciência) nos laboratórios do CRIIS (Center for Robotics in Industry and Intelligent Systems), pretende-se explorar a capacidade de modelos deep learning no ambiente Android, através da comparação e avaliação de modelos YOLOv5 (YOLOv5s e YOLOv5n), YOLOv8 e Single Shot Multibox De tector (SSD) MobileNetv2. Este tópico encontra-se inserido no desenvolvimento do projeto Orioos – Solução robótica autónoma de baixo custo para a monitorização e a fenotipagem de culturas permanentes. Este consiste num robô em que o sistema de visão e perceção do ambiente é exclusivo a uma aplicação Android. Além de reduzir significativamente o custo do robô, esta abordagem permite uma reutilização/reciclagem de smartphones mais antigos. Para o treino dos modelos foram utilizados 2 datasets de uvas e troncos de videira, disponíveis online, e foi criado um dataset de QR codes envolvidos na vinha. Como resultado dos treinos, utilizou-se a ferramenta FittyOne e um dataset de teste com imagens que os modelos nunca analisaram, de modo a comparar os resultados de ground truth com deteções efetuadas por cada modelo com uma confiança igual ou superior a 25 %. Verificou-se que os modelos YOLOv5n, YOLOv5s e YO LOv8n destacaram-se com os resultados mais positivos. A deteção de QR codes apresentou valores mais elevados de precisão, seguida da identificação de uvas. Na deteção de troncos, os modelos obtiveram valores menos positivos, sendo que o valor mais elevado de F1 score foi de 23 %. De todos os modelos, o modelo SSD MobineNetv2 apresentou, nas deteções de uvas e de troncos, resultados menos satisfatórios. Relativamente ao tempo de processamento no CPU de um computador, os modelos SSD MobineNetv2, YOLOv5n, YOLOV5s e YOLOv8n destacaram-se com valores inferiores a 600 milissegundos. Após a análise num computador, foram realizados 3 testes de campo para avaliar os modelos YOLOv5s, YOLOv5n e SSD MobineNetv2 num smartphone. Os modelos YOLO destacaram-se com o maior número de deteções correctas e as mais elevadas precisões. Na mesma área de análise, o modelo SSD MobineNetv2 necessitou de uma maior proximidade do objeto para que este fosse detectado. Posteriormente, foram analisados os tempos de processamento no CPU de um smartphone e verificou-se que os valores mais baixos são do modelo SSD MobineNetv2. Este modelo revelou-se 33 % mais rápido do que o modelo YOLOv5n, o modelo mais rápido da rede YOLO.O modelo YOLOv5s, apesar de ter mais precisão na deteção, tem um tempo de inferência mais longo, pelo que não consegue acompanhar as mudanças de perspetiva. Para a aplicação Orioos, foi adicionada a capacidade de descodificar os QR codes quando estes são detetados por uma rede neural. A identificação e descodificação de QR Codes permitirá ao robô ter informação externa, como a informação da docking station mais próxima, ou a localização precisa do local, de forma a eliminar erros incrementais que existem na navegação autónoma. |
id |
RCAP_16eac317c1bec2c9cbd908b81c330488 |
---|---|
oai_identifier_str |
oai:recipp.ipp.pt:10400.22/24001 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Sistema de perceção visual com recurso a tecnologia de smartphonesVisual perception system using smartphone technologydeep learningvisão por computadordatasetrobótica na agriculturadeteção de frutosaplicação móvelinferênciaredes neuronaisandroidDomínio/Área Científica::Engenharia e TecnologiaNa presente dissertação, desenvolvida no INESC TEC (Instituto de Engenharia de Sistemas e Computadores, Tecnologia e Ciência) nos laboratórios do CRIIS (Center for Robotics in Industry and Intelligent Systems), pretende-se explorar a capacidade de modelos deep learning no ambiente Android, através da comparação e avaliação de modelos YOLOv5 (YOLOv5s e YOLOv5n), YOLOv8 e Single Shot Multibox De tector (SSD) MobileNetv2. Este tópico encontra-se inserido no desenvolvimento do projeto Orioos – Solução robótica autónoma de baixo custo para a monitorização e a fenotipagem de culturas permanentes. Este consiste num robô em que o sistema de visão e perceção do ambiente é exclusivo a uma aplicação Android. Além de reduzir significativamente o custo do robô, esta abordagem permite uma reutilização/reciclagem de smartphones mais antigos. Para o treino dos modelos foram utilizados 2 datasets de uvas e troncos de videira, disponíveis online, e foi criado um dataset de QR codes envolvidos na vinha. Como resultado dos treinos, utilizou-se a ferramenta FittyOne e um dataset de teste com imagens que os modelos nunca analisaram, de modo a comparar os resultados de ground truth com deteções efetuadas por cada modelo com uma confiança igual ou superior a 25 %. Verificou-se que os modelos YOLOv5n, YOLOv5s e YO LOv8n destacaram-se com os resultados mais positivos. A deteção de QR codes apresentou valores mais elevados de precisão, seguida da identificação de uvas. Na deteção de troncos, os modelos obtiveram valores menos positivos, sendo que o valor mais elevado de F1 score foi de 23 %. De todos os modelos, o modelo SSD MobineNetv2 apresentou, nas deteções de uvas e de troncos, resultados menos satisfatórios. Relativamente ao tempo de processamento no CPU de um computador, os modelos SSD MobineNetv2, YOLOv5n, YOLOV5s e YOLOv8n destacaram-se com valores inferiores a 600 milissegundos. Após a análise num computador, foram realizados 3 testes de campo para avaliar os modelos YOLOv5s, YOLOv5n e SSD MobineNetv2 num smartphone. Os modelos YOLO destacaram-se com o maior número de deteções correctas e as mais elevadas precisões. Na mesma área de análise, o modelo SSD MobineNetv2 necessitou de uma maior proximidade do objeto para que este fosse detectado. Posteriormente, foram analisados os tempos de processamento no CPU de um smartphone e verificou-se que os valores mais baixos são do modelo SSD MobineNetv2. Este modelo revelou-se 33 % mais rápido do que o modelo YOLOv5n, o modelo mais rápido da rede YOLO.O modelo YOLOv5s, apesar de ter mais precisão na deteção, tem um tempo de inferência mais longo, pelo que não consegue acompanhar as mudanças de perspetiva. Para a aplicação Orioos, foi adicionada a capacidade de descodificar os QR codes quando estes são detetados por uma rede neural. A identificação e descodificação de QR Codes permitirá ao robô ter informação externa, como a informação da docking station mais próxima, ou a localização precisa do local, de forma a eliminar erros incrementais que existem na navegação autónoma.In this dissertation, developed at INESC TEC (Institute of Systems and Computer Engineering, Technology and Science) in the CRIIS (Center for Robotics in Indus try and Intelligent Systems) laboratories, we intend to explore the capacity of deep learning models in the Android environment, through the comparison and evalu ation of models YOLOv5 (YOLOv5s and YOLOv5n), YOLOv8 and Single Shot Multibox Detector (SSD) Mobilenet v2. This topic is inserted in the development of the Orioos project - Low cost autonomous robotic solution for monitoring and phenotyping of permanent cultures. This consists of a robot in which the vision and environment perception system is exclusive to a Android application. This approach significantly reduces the cost of the robot and allows for reutilization/recycling of older smartphones. For training the models, 2 datasets of grapes and vine trunks, available online, were used and a dataset of QR codes involved in the vineyard was created. As a result of the training, we used the FittyOne tool and a test dataset with images that the models have never analyzed, in order to compare the results of ground truth with detections made by each model with a confidence equal to or greater than 25 %. It was found that the YOLOv5n, YOLOv5s and YOLOv8n models stood out with the most positive results. The detection of QR codes showed higher accuracy values, followed by the identification of grapes. In trunk detection, the models obtained less successful results, with the highest F1 score value being 23 %. Of all the models, the model MobineNetv2 presented, in the detections of grapes and trunks, less satisfactory results. Regarding the processing time on a laptop CPU, the models SSD MobineNetv2, YOLOv5n, YOLOV5s and YOLOv8n stood out with values below 600 milliseconds. After the analysis on a computer, 3 field tests were performed to evaluate the YOLOv5s, YOLOv5n and SSD MobineNetv2 models on a smartphone. The YOLO models stood out with the highest number of correct detections and the highest ac curacies. In the same analysis area, the SSD MobineNetv2 model required a greater proximity to the object for it to be detected. Subsequently, the processing times in the CPU of an smartphone were analyzed and it was found that the lowest values are from the SSD model MobineNetv2. This model proved to be 33 % faster than the YOLOv5n model, the fastest model in the YOLO network. The YOLOv5s model, despite having more accuracy in detection, has a longer inference time, so it cannot keep up with perspective changes. For the Orioos application, the ability to decode QR codes was added when they are detected by a neural network. The identification and decoding of QR Codes will allow the robot to have external information, such as the information of the nearest docking station, or the precise location, in order to eliminate incremental errors that exist in autonomous navigation.Dias, André Miguel PinheiroRepositório Científico do Instituto Politécnico do PortoPereira, Sara Raquel Monteiro da Silva2023-11-27T16:03:33Z2023-07-262023-07-26T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/24001TID:203381076porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-29T01:48:16Zoai:recipp.ipp.pt:10400.22/24001Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T23:20:01.284145Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Sistema de perceção visual com recurso a tecnologia de smartphones Visual perception system using smartphone technology |
title |
Sistema de perceção visual com recurso a tecnologia de smartphones |
spellingShingle |
Sistema de perceção visual com recurso a tecnologia de smartphones Pereira, Sara Raquel Monteiro da Silva deep learning visão por computador dataset robótica na agricultura deteção de frutos aplicação móvel inferência redes neuronais android Domínio/Área Científica::Engenharia e Tecnologia |
title_short |
Sistema de perceção visual com recurso a tecnologia de smartphones |
title_full |
Sistema de perceção visual com recurso a tecnologia de smartphones |
title_fullStr |
Sistema de perceção visual com recurso a tecnologia de smartphones |
title_full_unstemmed |
Sistema de perceção visual com recurso a tecnologia de smartphones |
title_sort |
Sistema de perceção visual com recurso a tecnologia de smartphones |
author |
Pereira, Sara Raquel Monteiro da Silva |
author_facet |
Pereira, Sara Raquel Monteiro da Silva |
author_role |
author |
dc.contributor.none.fl_str_mv |
Dias, André Miguel Pinheiro Repositório Científico do Instituto Politécnico do Porto |
dc.contributor.author.fl_str_mv |
Pereira, Sara Raquel Monteiro da Silva |
dc.subject.por.fl_str_mv |
deep learning visão por computador dataset robótica na agricultura deteção de frutos aplicação móvel inferência redes neuronais android Domínio/Área Científica::Engenharia e Tecnologia |
topic |
deep learning visão por computador dataset robótica na agricultura deteção de frutos aplicação móvel inferência redes neuronais android Domínio/Área Científica::Engenharia e Tecnologia |
description |
Na presente dissertação, desenvolvida no INESC TEC (Instituto de Engenharia de Sistemas e Computadores, Tecnologia e Ciência) nos laboratórios do CRIIS (Center for Robotics in Industry and Intelligent Systems), pretende-se explorar a capacidade de modelos deep learning no ambiente Android, através da comparação e avaliação de modelos YOLOv5 (YOLOv5s e YOLOv5n), YOLOv8 e Single Shot Multibox De tector (SSD) MobileNetv2. Este tópico encontra-se inserido no desenvolvimento do projeto Orioos – Solução robótica autónoma de baixo custo para a monitorização e a fenotipagem de culturas permanentes. Este consiste num robô em que o sistema de visão e perceção do ambiente é exclusivo a uma aplicação Android. Além de reduzir significativamente o custo do robô, esta abordagem permite uma reutilização/reciclagem de smartphones mais antigos. Para o treino dos modelos foram utilizados 2 datasets de uvas e troncos de videira, disponíveis online, e foi criado um dataset de QR codes envolvidos na vinha. Como resultado dos treinos, utilizou-se a ferramenta FittyOne e um dataset de teste com imagens que os modelos nunca analisaram, de modo a comparar os resultados de ground truth com deteções efetuadas por cada modelo com uma confiança igual ou superior a 25 %. Verificou-se que os modelos YOLOv5n, YOLOv5s e YO LOv8n destacaram-se com os resultados mais positivos. A deteção de QR codes apresentou valores mais elevados de precisão, seguida da identificação de uvas. Na deteção de troncos, os modelos obtiveram valores menos positivos, sendo que o valor mais elevado de F1 score foi de 23 %. De todos os modelos, o modelo SSD MobineNetv2 apresentou, nas deteções de uvas e de troncos, resultados menos satisfatórios. Relativamente ao tempo de processamento no CPU de um computador, os modelos SSD MobineNetv2, YOLOv5n, YOLOV5s e YOLOv8n destacaram-se com valores inferiores a 600 milissegundos. Após a análise num computador, foram realizados 3 testes de campo para avaliar os modelos YOLOv5s, YOLOv5n e SSD MobineNetv2 num smartphone. Os modelos YOLO destacaram-se com o maior número de deteções correctas e as mais elevadas precisões. Na mesma área de análise, o modelo SSD MobineNetv2 necessitou de uma maior proximidade do objeto para que este fosse detectado. Posteriormente, foram analisados os tempos de processamento no CPU de um smartphone e verificou-se que os valores mais baixos são do modelo SSD MobineNetv2. Este modelo revelou-se 33 % mais rápido do que o modelo YOLOv5n, o modelo mais rápido da rede YOLO.O modelo YOLOv5s, apesar de ter mais precisão na deteção, tem um tempo de inferência mais longo, pelo que não consegue acompanhar as mudanças de perspetiva. Para a aplicação Orioos, foi adicionada a capacidade de descodificar os QR codes quando estes são detetados por uma rede neural. A identificação e descodificação de QR Codes permitirá ao robô ter informação externa, como a informação da docking station mais próxima, ou a localização precisa do local, de forma a eliminar erros incrementais que existem na navegação autónoma. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-11-27T16:03:33Z 2023-07-26 2023-07-26T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.22/24001 TID:203381076 |
url |
http://hdl.handle.net/10400.22/24001 |
identifier_str_mv |
TID:203381076 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799135499179261952 |