Implementation of faster R-CNN applied to the datasets COCO and PASCAL VOC
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Institucional da UFRJ |
Texto Completo: | http://hdl.handle.net/11422/21714 |
Resumo: | This dissertation presents implementations of two object detection systems, Faster R-CNN and Faster R-CNN with FPN, based on convolutional neural net- works. There is a brief introduction to machine learning, followed by an explanation of the image classification task, where the VGG-16 and ResNet-101 architectures are presented, as well as detailed explanations of the object detection task and the meth- ods that led to the development of Faster R-CNN. Next, the implementation of the algorithms is discussed thoroughly, specifying the parameters and the framework used to build the networks, and mentioning differences with the original. Then, three experiments are performed, using the COCO and PASCAL VOC datasets for training and testing, and the results, on the mean average precision (mAP) metric, are compared with the original counterparts of the methods. The obtained results are discussed and some considerations are made about the inference time of the im- plementations. Finally, detection examples of the most accurate implementation are presented. The FPN detector achieved 38.1% mAP@[.5, .95] and 61.1% mAP@0.5 on the COCO test-dev set (a more recent model, RetinaNet with ResNeXt-101-FPN, achieves 40.8% mAP@[.5, .95] and 61.1% mAP@0.5 on the COCO test-dev set). The code is available at: https://gitlab.com/pedrocayres/faster_rcnn_pytorch. |
id |
UFRJ_e82af900e3ba6888ec09b269d0e67058 |
---|---|
oai_identifier_str |
oai:pantheon.ufrj.br:11422/21714 |
network_acronym_str |
UFRJ |
network_name_str |
Repositório Institucional da UFRJ |
repository_id_str |
|
spelling |
Implementation of faster R-CNN applied to the datasets COCO and PASCAL VOCDetecção de objetosRede neural convolucionalVisão computacionalAprendizado profundoCNPQ::ENGENHARIAS::ENGENHARIA ELETRICAThis dissertation presents implementations of two object detection systems, Faster R-CNN and Faster R-CNN with FPN, based on convolutional neural net- works. There is a brief introduction to machine learning, followed by an explanation of the image classification task, where the VGG-16 and ResNet-101 architectures are presented, as well as detailed explanations of the object detection task and the meth- ods that led to the development of Faster R-CNN. Next, the implementation of the algorithms is discussed thoroughly, specifying the parameters and the framework used to build the networks, and mentioning differences with the original. Then, three experiments are performed, using the COCO and PASCAL VOC datasets for training and testing, and the results, on the mean average precision (mAP) metric, are compared with the original counterparts of the methods. The obtained results are discussed and some considerations are made about the inference time of the im- plementations. Finally, detection examples of the most accurate implementation are presented. The FPN detector achieved 38.1% mAP@[.5, .95] and 61.1% mAP@0.5 on the COCO test-dev set (a more recent model, RetinaNet with ResNeXt-101-FPN, achieves 40.8% mAP@[.5, .95] and 61.1% mAP@0.5 on the COCO test-dev set). The code is available at: https://gitlab.com/pedrocayres/faster_rcnn_pytorch.Esta dissertação apresenta implementações de dois detectores de objetos baseados em redes neurais convolucionais: Faster R-CNN e Faster R-CNN com FPN. E feita uma breve introdução ao aprendizado de máquinas, em seguida há uma explicação sobre a tarefa de classificação de imagens, onde são apresentadas as arquiteturas VGG-16 e ResNet-101, assim como uma explicação detalhada sobre a tarefa de detecção de objetos e sobre os métodos que levaram ao desenvolvimento do Faster R-CNN. Após isso, há uma discussão sobre as implementações como um todo, apresentando todos os parâmetros utilizados, assim como a infraestrutura utilizada para construir as redes e as diferenças com relação às implementações originais. Então, são realizados três experimentos, utilizando as bases de dados COCO e PASCAL VOC para treino e teste, e os resultados são comparados com os dos trabalhos originais com a métrica da média das precisões médias (mAP), e estes resultados são analisados. Também são feitas algumas considerações sobre o tempo de inferência dos métodos. Finalmente, alguns exemplos de detecção da melhor rede são apresentados. No experimento feito na base COCO, o detector FPN obteve um mAP@[.5, .95] de 38.1% e mAP@0.5 de 61.1% no conjunto COCO test-dev (um modelo mais recente, RetinaNet com ResNeXt-101-FPN, obtém 40.8% de mAP@[.5, .95] e 61.1% de mAP@0.5 no conjunto COCO test-dev). O código está disponível em: https://gitlab.com/pedrocayres/faster_rcnn_pytorch.Universidade Federal do Rio de JaneiroBrasilInstituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de EngenhariaPrograma de Pós-Graduação em Engenharia ElétricaUFRJRodríguez Carneiro Gomes, José Gabrielhttp://lattes.cnpq.br/7223006274934179Petraglia, Mariane RemboldNunes, Leonardo de OliveiraPinto, Pedro de Carvalho Cayres2023-09-27T14:57:08Z2023-12-21T03:02:04Z2019-03-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/11422/21714enginfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJ2023-12-21T03:02:04Zoai:pantheon.ufrj.br:11422/21714Repositório InstitucionalPUBhttp://www.pantheon.ufrj.br/oai/requestpantheon@sibi.ufrj.bropendoar:2023-12-21T03:02:04Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false |
dc.title.none.fl_str_mv |
Implementation of faster R-CNN applied to the datasets COCO and PASCAL VOC |
title |
Implementation of faster R-CNN applied to the datasets COCO and PASCAL VOC |
spellingShingle |
Implementation of faster R-CNN applied to the datasets COCO and PASCAL VOC Pinto, Pedro de Carvalho Cayres Detecção de objetos Rede neural convolucional Visão computacional Aprendizado profundo CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
title_short |
Implementation of faster R-CNN applied to the datasets COCO and PASCAL VOC |
title_full |
Implementation of faster R-CNN applied to the datasets COCO and PASCAL VOC |
title_fullStr |
Implementation of faster R-CNN applied to the datasets COCO and PASCAL VOC |
title_full_unstemmed |
Implementation of faster R-CNN applied to the datasets COCO and PASCAL VOC |
title_sort |
Implementation of faster R-CNN applied to the datasets COCO and PASCAL VOC |
author |
Pinto, Pedro de Carvalho Cayres |
author_facet |
Pinto, Pedro de Carvalho Cayres |
author_role |
author |
dc.contributor.none.fl_str_mv |
Rodríguez Carneiro Gomes, José Gabriel http://lattes.cnpq.br/7223006274934179 Petraglia, Mariane Rembold Nunes, Leonardo de Oliveira |
dc.contributor.author.fl_str_mv |
Pinto, Pedro de Carvalho Cayres |
dc.subject.por.fl_str_mv |
Detecção de objetos Rede neural convolucional Visão computacional Aprendizado profundo CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
topic |
Detecção de objetos Rede neural convolucional Visão computacional Aprendizado profundo CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
description |
This dissertation presents implementations of two object detection systems, Faster R-CNN and Faster R-CNN with FPN, based on convolutional neural net- works. There is a brief introduction to machine learning, followed by an explanation of the image classification task, where the VGG-16 and ResNet-101 architectures are presented, as well as detailed explanations of the object detection task and the meth- ods that led to the development of Faster R-CNN. Next, the implementation of the algorithms is discussed thoroughly, specifying the parameters and the framework used to build the networks, and mentioning differences with the original. Then, three experiments are performed, using the COCO and PASCAL VOC datasets for training and testing, and the results, on the mean average precision (mAP) metric, are compared with the original counterparts of the methods. The obtained results are discussed and some considerations are made about the inference time of the im- plementations. Finally, detection examples of the most accurate implementation are presented. The FPN detector achieved 38.1% mAP@[.5, .95] and 61.1% mAP@0.5 on the COCO test-dev set (a more recent model, RetinaNet with ResNeXt-101-FPN, achieves 40.8% mAP@[.5, .95] and 61.1% mAP@0.5 on the COCO test-dev set). The code is available at: https://gitlab.com/pedrocayres/faster_rcnn_pytorch. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-03-02 2023-09-27T14:57:08Z 2023-12-21T03:02:04Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/11422/21714 |
url |
http://hdl.handle.net/11422/21714 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal do Rio de Janeiro Brasil Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia Programa de Pós-Graduação em Engenharia Elétrica UFRJ |
publisher.none.fl_str_mv |
Universidade Federal do Rio de Janeiro Brasil Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia Programa de Pós-Graduação em Engenharia Elétrica UFRJ |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRJ instname:Universidade Federal do Rio de Janeiro (UFRJ) instacron:UFRJ |
instname_str |
Universidade Federal do Rio de Janeiro (UFRJ) |
instacron_str |
UFRJ |
institution |
UFRJ |
reponame_str |
Repositório Institucional da UFRJ |
collection |
Repositório Institucional da UFRJ |
repository.name.fl_str_mv |
Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ) |
repository.mail.fl_str_mv |
pantheon@sibi.ufrj.br |
_version_ |
1815456043249958912 |