Image recognition using deep learning
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://hdl.handle.net/1822/59733 |
Resumo: | Dissertação de mestrado em Computer Science |
id |
RCAP_5d1e0197e57ede0625c488abeb5ee266 |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/59733 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Image recognition using deep learningEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em Computer ScienceComputer vision is a vast knowledge subject responsible for traducing digital images and videos into a higher level of understandable information. Image recognition is one of the several tasks that are inserted in this subject and it can be subdivided in object recognition (also called as object classification), segmentation, identification and detection. Some of the available alternatives for image recognition are based on Machine Learning (ML) approaches. Deep Learning (DL) is a branch of ML that became very popular in the last years due to its success in previously considered hard tasks. The lack of large amounts of data and efficient computational resources a few years ago, were a barrier for the expansion of DL. However, thanks to the current easy data access and due to development of more powerful computational resources, including CPU and GPU too, the attention turned back on, and it became easier and faster to train a model than can distinguish different types of classes with a very low error rate. One interesting fact about DL is its ability to automatically learn from data and understand the most differentiable features of it. From the point of view of the industry, many artificial vision inspection lines still do their jobs relying on traditional computer vision methods/algorithms. Yet, with more complex domains, for example like texture patterns, things can get more difficult. This is where DL comes in. This document begins with an introduction of DL for artificial vision. It starts by addressing the theoretical fundamentals of DL for image recognition and then focuses on the general aspects of Convolutional Neural Networks (CNN). Next, are reviewed the state of the art network configurations that stood out in recently. A high-level toolkit for image recognition was created to simplify the whole process of building DL models, from the data pre-processing to the trained model testing phase. It allowed to easily prepare a set of experiences that address some of the common practices used on CNNs and highlight the power of DL on image recognition related tasks. This dissertation was developed under a business environment on a artificial vision company called Neadvance, Machine Vision, SA. The Neadvance, Machine Vision, SA is also interested in researching the new trends related to DL for image recognition in order to know how to apply them on their projects since it opens a new range of challenging opportunities.A visão por computador é uma área vasta de conhecimento responsável por traduzir imagens e vídeos digitais para um nível mais alto de informação compreensível. O reconhecimento de imagem é uma das várias tarefas que está inserida nesta área e pode ser sub-dividida em reconhecimento de objectos (também designada por classificação de objectos), segmentação, identificação e detecção. Algumas das alternativas disponíveis para reconhecimento são baseadas em abordagens de ML. O DL é um ramo de ML e tornou-se muito popular nos últimos anos devido ao seu sucesso em tarefas consideradas difíceis, até ao momento. A falta de grande quantidade de dados e de recursos computacionais eficientes há uns anos atrás, foram uma barreira para a expansão do DL. Contudo, graças à actual facilidade de acesso a dados e devido ao desenvolvimento de recursos computacionais mais potentes, incluindo CPU e GPU também, a atenção à volta do tema voltou a crescer, e tornou-se mais fácil e mais rápido treinar um modelo que consegue distinguir diferentes tipos de classes com uma taxa de erro baixa. Um facto interessante sobre o DL, é a sua capacidade para aprender dos dados e compreender as suas características mais diferenciadoras. Do ponto de vista da indústria, muitas linhas de inspecção via visão artificial ainda fazem o seu trabalho através de métodos/algoritmos tradicionais de visão por computador. Todavia, com domínios mais complexos, como por exemplo padrões de texturas, as coisas podem tornar-se mais difíceis. É aí onde entra o DL. Este documento inicia com uma introdução ao DL para visão artificial. Começa por abordar os fundamentos teóricos de DL para reconhecimento de imagem e de seguida foca-se em aspectos gerais das Convolutional Neural Network (CNN)s. Depois, são revistas as configurações estado da arte das arquitecturas de rede que se destacaram recentemente. Foi criado um conjunto de ferramentas para simplificar todo o processo de construção de modelos de DL, desde o pré-processamento dos dados até à fase de testes do modelo treinado. Este permitiu ainda preparar facilmente uma série de experiencias que abordam algumas das práticas comuns usadas nas CNN e destacar o poder do DL em tarefas relacionadas com reconhecimento de imagem. Esta dissertação foi desenvolvida sob ambiente empresarial numa empresa de visão artificial chamada Neadvance, Machine Vision, SA. A Neadvance, Machine Vision, SA também está interessada em investigar as novas tendências relacionadas com o DL de forma a saber como aplicá-las nos seus projectos, uma vez que lhe possibilita uma nova gama de desafios.Fernandes, António RamiresFerreira, Manuel João OliveiraUniversidade do MinhoBarbosa, Bruno Miguel da Silva20182018-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/59733eng202191990info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-09-30T01:26:15Zoai:repositorium.sdum.uminho.pt:1822/59733Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T18:51:51.966495Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Image recognition using deep learning |
title |
Image recognition using deep learning |
spellingShingle |
Image recognition using deep learning Barbosa, Bruno Miguel da Silva Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
title_short |
Image recognition using deep learning |
title_full |
Image recognition using deep learning |
title_fullStr |
Image recognition using deep learning |
title_full_unstemmed |
Image recognition using deep learning |
title_sort |
Image recognition using deep learning |
author |
Barbosa, Bruno Miguel da Silva |
author_facet |
Barbosa, Bruno Miguel da Silva |
author_role |
author |
dc.contributor.none.fl_str_mv |
Fernandes, António Ramires Ferreira, Manuel João Oliveira Universidade do Minho |
dc.contributor.author.fl_str_mv |
Barbosa, Bruno Miguel da Silva |
dc.subject.por.fl_str_mv |
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
topic |
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
description |
Dissertação de mestrado em Computer Science |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018 2018-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1822/59733 |
url |
https://hdl.handle.net/1822/59733 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
202191990 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799132292686282752 |