Sistema de deteção visual para aplicação em contexto de agricultura

Detalhes bibliográficos
Autor(a) principal: Padilha, Tiago João Cerveira
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10773/33709
Resumo: A visão por computador, tem-se revelado fundamental na inovação e evolução tecnológica, com um crescimento exponencial ao longo dos últimos anos. As técnicas tradicionais do processamento de imagem, nem sempre são suficientemente capazes de resolver problemas reais de elevada complexidade. A utilização de técnicas deep learning, permitirão desenvolver capacidades de aprendizagem com melhores desempenhos. Na presente dissertação, desenvolvida no INESC TEC nos laboratórios do CRIIS, pretende-se explorar a utilidade do deep learning através da comparação e avaliação de quatro modelos deep learning, YOLOv4, Single Shot Multibox Detector (SSD) ResNet 50, SSD Inception v2, SSD MobileNet v2, para deteção de frutos, designadamente tomate em estufa. O objetivo principal desta comparação é avaliar a rede neuronal com melhor desempenho em inferência, assim como a viabilidade de utilização de dois datasets distintos. Foi utilizado um dataset de tomate adquirido, contra um dataset público Open Image Dataset v6 (OIDv6), para o treino dos quatro modelos. Para a avaliação do desempenho, recorreu-se a um dataset de teste próprio, de tomate em estufa. No final os resultados demonstraram grandes benefícios na utilização do dataset de tomate adquirido, no qual a YOLOv4 obteve o melhor desempenho, com uma precisão de 91%. No caso do OIDv6 os resultados foram muito baixos, devido às caraterísticas do dataset serem muito díspares do dataset de teste. Após a análise das redes neuronais, explorou-se o desenvolvimento da unidade de processamento FPGA (Field Programmable Gate Array ), com o objetivo de avaliar o seu desempenho ao nível de inferência, eficiência energética e tempo de inferência. Iniciou-se pela configuração do modelo YOLOv4 no formato adequado para a FPGA e a preparação de um script para deteção. Posteriormente foi proposta uma arquitetura distribuída, para automatização do processo de envio de imagens do sistema ROS (Robot Operating System), para realização de inferência na FPGA e os respetivos resultados das deteções. Apesar da sua viabilidade de aplicação, foram obtidos resultados significativamente inferiores ao nível de desempenho na inferência (-28%), devido aos vários processos de conversão e configuração da rede neuronal na FPGA. No que diz respeito ao consumo energético, durante a inferência obteve-se 1650 mA, representando um aumento de 28.9% relativamente ao funcionamento operacional e um tempo médio de inferência de 79 mili segundos. Em suma a opção de utilização de uma FPGA, revelou-se viável para inferência, apesar de necessitar de melhorias nos procedimentos de configuração das redes neuronais.
id RCAP_07d8296ed30665d1f7f16b41403faeee
oai_identifier_str oai:ria.ua.pt:10773/33709
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Sistema de deteção visual para aplicação em contexto de agriculturaDeep learningVisão por computadorDatasetRobótica na agriculturaDeteção de frutosfpgaInferênciaDesempenhoRedes neuronaisA visão por computador, tem-se revelado fundamental na inovação e evolução tecnológica, com um crescimento exponencial ao longo dos últimos anos. As técnicas tradicionais do processamento de imagem, nem sempre são suficientemente capazes de resolver problemas reais de elevada complexidade. A utilização de técnicas deep learning, permitirão desenvolver capacidades de aprendizagem com melhores desempenhos. Na presente dissertação, desenvolvida no INESC TEC nos laboratórios do CRIIS, pretende-se explorar a utilidade do deep learning através da comparação e avaliação de quatro modelos deep learning, YOLOv4, Single Shot Multibox Detector (SSD) ResNet 50, SSD Inception v2, SSD MobileNet v2, para deteção de frutos, designadamente tomate em estufa. O objetivo principal desta comparação é avaliar a rede neuronal com melhor desempenho em inferência, assim como a viabilidade de utilização de dois datasets distintos. Foi utilizado um dataset de tomate adquirido, contra um dataset público Open Image Dataset v6 (OIDv6), para o treino dos quatro modelos. Para a avaliação do desempenho, recorreu-se a um dataset de teste próprio, de tomate em estufa. No final os resultados demonstraram grandes benefícios na utilização do dataset de tomate adquirido, no qual a YOLOv4 obteve o melhor desempenho, com uma precisão de 91%. No caso do OIDv6 os resultados foram muito baixos, devido às caraterísticas do dataset serem muito díspares do dataset de teste. Após a análise das redes neuronais, explorou-se o desenvolvimento da unidade de processamento FPGA (Field Programmable Gate Array ), com o objetivo de avaliar o seu desempenho ao nível de inferência, eficiência energética e tempo de inferência. Iniciou-se pela configuração do modelo YOLOv4 no formato adequado para a FPGA e a preparação de um script para deteção. Posteriormente foi proposta uma arquitetura distribuída, para automatização do processo de envio de imagens do sistema ROS (Robot Operating System), para realização de inferência na FPGA e os respetivos resultados das deteções. Apesar da sua viabilidade de aplicação, foram obtidos resultados significativamente inferiores ao nível de desempenho na inferência (-28%), devido aos vários processos de conversão e configuração da rede neuronal na FPGA. No que diz respeito ao consumo energético, durante a inferência obteve-se 1650 mA, representando um aumento de 28.9% relativamente ao funcionamento operacional e um tempo médio de inferência de 79 mili segundos. Em suma a opção de utilização de uma FPGA, revelou-se viável para inferência, apesar de necessitar de melhorias nos procedimentos de configuração das redes neuronais.Computer vision has been fundamental in innovation and technological evolution, with exponential growth over the last years. Traditional image processing techniques are not always sufficiently capable of solving real problems of high complexity. The use of deep learning techniques will allow the development of learning capabilities with better performance. In this dissertation, developed at INESC TEC in the CRIIS laboratories, we intend to explore the usefulness of deep learning through the comparison and evaluation of four deep learning models, YOLOv4, Single Shot Multibox Detector (SSD) ResNet 50, SSD Inception v2, SSD MobileNet v2, for fruit detection, namely greenhouse tomatoes. The main objective of this comparison is to evaluate the best performing neuronal network in inference, as well as the feasibility of using two different datasets. An acquired tomato dataset was used against a public Open Image Dataset v6 (OIDv6) to train the four models. For performance evaluation, a proprietary test dataset of tomatoes in a greenhouse was used. In the end, the results showed great benefits in using the acquired tomato dataset, in which YOLOv4 obtained the best performance, with an accuracy of 91%. In the case of OIDv6, the results were very low, due to the characteristics of the dataset being very different from the test dataset. After the analysis of the neural networks, the development of the FPGA (Field Programmable Gate Array) processing unit was explored, to evaluate its performance in terms of inference, energy efficiency, and inference time. We started by configuring the YOLOv4 model in the appropriate format for the FPGA and preparing a script for detection. Later, a distributed architecture was proposed to automate the process of sending images from the ROS (Robot Operating System) system, to perform inference in the FPGA and the respective detection results. Despite its application feasibility, significantly lower results were obtained in the inference performance level (-28%), due to the various conversion and configuration processes of the neural network in the FPGA. Concerning power consumption, 1650 mA was obtained during inference, representing an increase of 28.9% over the operational operation and an average inference time of 79 mili seconds. In summary, the option of using an FPGA proved to be viable for inference, despite the need for improvements in the neural network configuration procedures.2022-04-20T12:41:13Z2021-07-28T00:00:00Z2021-07-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10773/33709porPadilha, Tiago João Cerveirainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-02-22T12:04:50Zoai:ria.ua.pt:10773/33709Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:05:03.960766Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Sistema de deteção visual para aplicação em contexto de agricultura
title Sistema de deteção visual para aplicação em contexto de agricultura
spellingShingle Sistema de deteção visual para aplicação em contexto de agricultura
Padilha, Tiago João Cerveira
Deep learning
Visão por computador
Dataset
Robótica na agricultura
Deteção de frutos
fpga
Inferência
Desempenho
Redes neuronais
title_short Sistema de deteção visual para aplicação em contexto de agricultura
title_full Sistema de deteção visual para aplicação em contexto de agricultura
title_fullStr Sistema de deteção visual para aplicação em contexto de agricultura
title_full_unstemmed Sistema de deteção visual para aplicação em contexto de agricultura
title_sort Sistema de deteção visual para aplicação em contexto de agricultura
author Padilha, Tiago João Cerveira
author_facet Padilha, Tiago João Cerveira
author_role author
dc.contributor.author.fl_str_mv Padilha, Tiago João Cerveira
dc.subject.por.fl_str_mv Deep learning
Visão por computador
Dataset
Robótica na agricultura
Deteção de frutos
fpga
Inferência
Desempenho
Redes neuronais
topic Deep learning
Visão por computador
Dataset
Robótica na agricultura
Deteção de frutos
fpga
Inferência
Desempenho
Redes neuronais
description A visão por computador, tem-se revelado fundamental na inovação e evolução tecnológica, com um crescimento exponencial ao longo dos últimos anos. As técnicas tradicionais do processamento de imagem, nem sempre são suficientemente capazes de resolver problemas reais de elevada complexidade. A utilização de técnicas deep learning, permitirão desenvolver capacidades de aprendizagem com melhores desempenhos. Na presente dissertação, desenvolvida no INESC TEC nos laboratórios do CRIIS, pretende-se explorar a utilidade do deep learning através da comparação e avaliação de quatro modelos deep learning, YOLOv4, Single Shot Multibox Detector (SSD) ResNet 50, SSD Inception v2, SSD MobileNet v2, para deteção de frutos, designadamente tomate em estufa. O objetivo principal desta comparação é avaliar a rede neuronal com melhor desempenho em inferência, assim como a viabilidade de utilização de dois datasets distintos. Foi utilizado um dataset de tomate adquirido, contra um dataset público Open Image Dataset v6 (OIDv6), para o treino dos quatro modelos. Para a avaliação do desempenho, recorreu-se a um dataset de teste próprio, de tomate em estufa. No final os resultados demonstraram grandes benefícios na utilização do dataset de tomate adquirido, no qual a YOLOv4 obteve o melhor desempenho, com uma precisão de 91%. No caso do OIDv6 os resultados foram muito baixos, devido às caraterísticas do dataset serem muito díspares do dataset de teste. Após a análise das redes neuronais, explorou-se o desenvolvimento da unidade de processamento FPGA (Field Programmable Gate Array ), com o objetivo de avaliar o seu desempenho ao nível de inferência, eficiência energética e tempo de inferência. Iniciou-se pela configuração do modelo YOLOv4 no formato adequado para a FPGA e a preparação de um script para deteção. Posteriormente foi proposta uma arquitetura distribuída, para automatização do processo de envio de imagens do sistema ROS (Robot Operating System), para realização de inferência na FPGA e os respetivos resultados das deteções. Apesar da sua viabilidade de aplicação, foram obtidos resultados significativamente inferiores ao nível de desempenho na inferência (-28%), devido aos vários processos de conversão e configuração da rede neuronal na FPGA. No que diz respeito ao consumo energético, durante a inferência obteve-se 1650 mA, representando um aumento de 28.9% relativamente ao funcionamento operacional e um tempo médio de inferência de 79 mili segundos. Em suma a opção de utilização de uma FPGA, revelou-se viável para inferência, apesar de necessitar de melhorias nos procedimentos de configuração das redes neuronais.
publishDate 2021
dc.date.none.fl_str_mv 2021-07-28T00:00:00Z
2021-07-28
2022-04-20T12:41:13Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10773/33709
url http://hdl.handle.net/10773/33709
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799137705721856000