Implementation of faster R-CNN applied to the datasets COCO and PASCAL VOC

Detalhes bibliográficos
Autor(a) principal: Pinto, Pedro de Carvalho Cayres
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Institucional da UFRJ
Texto Completo: http://hdl.handle.net/11422/21714
Resumo: This dissertation presents implementations of two object detection systems, Faster R-CNN and Faster R-CNN with FPN, based on convolutional neural net- works. There is a brief introduction to machine learning, followed by an explanation of the image classification task, where the VGG-16 and ResNet-101 architectures are presented, as well as detailed explanations of the object detection task and the meth- ods that led to the development of Faster R-CNN. Next, the implementation of the algorithms is discussed thoroughly, specifying the parameters and the framework used to build the networks, and mentioning differences with the original. Then, three experiments are performed, using the COCO and PASCAL VOC datasets for training and testing, and the results, on the mean average precision (mAP) metric, are compared with the original counterparts of the methods. The obtained results are discussed and some considerations are made about the inference time of the im- plementations. Finally, detection examples of the most accurate implementation are presented. The FPN detector achieved 38.1% mAP@[.5, .95] and 61.1% mAP@0.5 on the COCO test-dev set (a more recent model, RetinaNet with ResNeXt-101-FPN, achieves 40.8% mAP@[.5, .95] and 61.1% mAP@0.5 on the COCO test-dev set). The code is available at: https://gitlab.com/pedrocayres/faster_rcnn_pytorch.
id UFRJ_e82af900e3ba6888ec09b269d0e67058
oai_identifier_str oai:pantheon.ufrj.br:11422/21714
network_acronym_str UFRJ
network_name_str Repositório Institucional da UFRJ
repository_id_str
spelling Implementation of faster R-CNN applied to the datasets COCO and PASCAL VOCDetecção de objetosRede neural convolucionalVisão computacionalAprendizado profundoCNPQ::ENGENHARIAS::ENGENHARIA ELETRICAThis dissertation presents implementations of two object detection systems, Faster R-CNN and Faster R-CNN with FPN, based on convolutional neural net- works. There is a brief introduction to machine learning, followed by an explanation of the image classification task, where the VGG-16 and ResNet-101 architectures are presented, as well as detailed explanations of the object detection task and the meth- ods that led to the development of Faster R-CNN. Next, the implementation of the algorithms is discussed thoroughly, specifying the parameters and the framework used to build the networks, and mentioning differences with the original. Then, three experiments are performed, using the COCO and PASCAL VOC datasets for training and testing, and the results, on the mean average precision (mAP) metric, are compared with the original counterparts of the methods. The obtained results are discussed and some considerations are made about the inference time of the im- plementations. Finally, detection examples of the most accurate implementation are presented. The FPN detector achieved 38.1% mAP@[.5, .95] and 61.1% mAP@0.5 on the COCO test-dev set (a more recent model, RetinaNet with ResNeXt-101-FPN, achieves 40.8% mAP@[.5, .95] and 61.1% mAP@0.5 on the COCO test-dev set). The code is available at: https://gitlab.com/pedrocayres/faster_rcnn_pytorch.Esta dissertação apresenta implementações de dois detectores de objetos baseados em redes neurais convolucionais: Faster R-CNN e Faster R-CNN com FPN. E feita uma breve introdução ao aprendizado de máquinas, em seguida há uma explicação sobre a tarefa de classificação de imagens, onde são apresentadas as arquiteturas VGG-16 e ResNet-101, assim como uma explicação detalhada sobre a tarefa de detecção de objetos e sobre os métodos que levaram ao desenvolvimento do Faster R-CNN. Após isso, há uma discussão sobre as implementações como um todo, apresentando todos os parâmetros utilizados, assim como a infraestrutura utilizada para construir as redes e as diferenças com relação às implementações originais. Então, são realizados três experimentos, utilizando as bases de dados COCO e PASCAL VOC para treino e teste, e os resultados são comparados com os dos trabalhos originais com a métrica da média das precisões médias (mAP), e estes resultados são analisados. Também são feitas algumas considerações sobre o tempo de inferência dos métodos. Finalmente, alguns exemplos de detecção da melhor rede são apresentados. No experimento feito na base COCO, o detector FPN obteve um mAP@[.5, .95] de 38.1% e mAP@0.5 de 61.1% no conjunto COCO test-dev (um modelo mais recente, RetinaNet com ResNeXt-101-FPN, obtém 40.8% de mAP@[.5, .95] e 61.1% de mAP@0.5 no conjunto COCO test-dev). O código está disponível em: https://gitlab.com/pedrocayres/faster_rcnn_pytorch.Universidade Federal do Rio de JaneiroBrasilInstituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de EngenhariaPrograma de Pós-Graduação em Engenharia ElétricaUFRJRodríguez Carneiro Gomes, José Gabrielhttp://lattes.cnpq.br/7223006274934179Petraglia, Mariane RemboldNunes, Leonardo de OliveiraPinto, Pedro de Carvalho Cayres2023-09-27T14:57:08Z2023-12-21T03:02:04Z2019-03-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/11422/21714enginfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJ2023-12-21T03:02:04Zoai:pantheon.ufrj.br:11422/21714Repositório InstitucionalPUBhttp://www.pantheon.ufrj.br/oai/requestpantheon@sibi.ufrj.bropendoar:2023-12-21T03:02:04Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false
dc.title.none.fl_str_mv Implementation of faster R-CNN applied to the datasets COCO and PASCAL VOC
title Implementation of faster R-CNN applied to the datasets COCO and PASCAL VOC
spellingShingle Implementation of faster R-CNN applied to the datasets COCO and PASCAL VOC
Pinto, Pedro de Carvalho Cayres
Detecção de objetos
Rede neural convolucional
Visão computacional
Aprendizado profundo
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
title_short Implementation of faster R-CNN applied to the datasets COCO and PASCAL VOC
title_full Implementation of faster R-CNN applied to the datasets COCO and PASCAL VOC
title_fullStr Implementation of faster R-CNN applied to the datasets COCO and PASCAL VOC
title_full_unstemmed Implementation of faster R-CNN applied to the datasets COCO and PASCAL VOC
title_sort Implementation of faster R-CNN applied to the datasets COCO and PASCAL VOC
author Pinto, Pedro de Carvalho Cayres
author_facet Pinto, Pedro de Carvalho Cayres
author_role author
dc.contributor.none.fl_str_mv Rodríguez Carneiro Gomes, José Gabriel
http://lattes.cnpq.br/7223006274934179
Petraglia, Mariane Rembold
Nunes, Leonardo de Oliveira
dc.contributor.author.fl_str_mv Pinto, Pedro de Carvalho Cayres
dc.subject.por.fl_str_mv Detecção de objetos
Rede neural convolucional
Visão computacional
Aprendizado profundo
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
topic Detecção de objetos
Rede neural convolucional
Visão computacional
Aprendizado profundo
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
description This dissertation presents implementations of two object detection systems, Faster R-CNN and Faster R-CNN with FPN, based on convolutional neural net- works. There is a brief introduction to machine learning, followed by an explanation of the image classification task, where the VGG-16 and ResNet-101 architectures are presented, as well as detailed explanations of the object detection task and the meth- ods that led to the development of Faster R-CNN. Next, the implementation of the algorithms is discussed thoroughly, specifying the parameters and the framework used to build the networks, and mentioning differences with the original. Then, three experiments are performed, using the COCO and PASCAL VOC datasets for training and testing, and the results, on the mean average precision (mAP) metric, are compared with the original counterparts of the methods. The obtained results are discussed and some considerations are made about the inference time of the im- plementations. Finally, detection examples of the most accurate implementation are presented. The FPN detector achieved 38.1% mAP@[.5, .95] and 61.1% mAP@0.5 on the COCO test-dev set (a more recent model, RetinaNet with ResNeXt-101-FPN, achieves 40.8% mAP@[.5, .95] and 61.1% mAP@0.5 on the COCO test-dev set). The code is available at: https://gitlab.com/pedrocayres/faster_rcnn_pytorch.
publishDate 2019
dc.date.none.fl_str_mv 2019-03-02
2023-09-27T14:57:08Z
2023-12-21T03:02:04Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11422/21714
url http://hdl.handle.net/11422/21714
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
Brasil
Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia
Programa de Pós-Graduação em Engenharia Elétrica
UFRJ
publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
Brasil
Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia
Programa de Pós-Graduação em Engenharia Elétrica
UFRJ
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRJ
instname:Universidade Federal do Rio de Janeiro (UFRJ)
instacron:UFRJ
instname_str Universidade Federal do Rio de Janeiro (UFRJ)
instacron_str UFRJ
institution UFRJ
reponame_str Repositório Institucional da UFRJ
collection Repositório Institucional da UFRJ
repository.name.fl_str_mv Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)
repository.mail.fl_str_mv pantheon@sibi.ufrj.br
_version_ 1815456043249958912