Criação automática de datasets e treinamento de classificadores sob demanda a partir de web crawling e deep learning

Detalhes bibliográficos
Autor(a) principal: Silva, Hugo Luís Andrade
Data de Publicação: 2018
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Biblioteca Digital de Monografias da UnB
Texto Completo: http://bdm.unb.br/handle/10483/21060
Resumo: Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2018.
id UNB-2_a85567caa1adb7f0de4ff65f8031a35d
oai_identifier_str oai:bdm.unb.br:10483/21060
network_acronym_str UNB-2
network_name_str Biblioteca Digital de Monografias da UnB
repository_id_str 11571
spelling Silva, Hugo Luís AndradeLamar, Marcus ViniciusSILVA, Hugo Luís Andrade. Criação automática de datasets e treinamento de classificadores sob demanda a partir de web crawling e deep learning. 2018. 119 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2018.http://bdm.unb.br/handle/10483/21060Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2018.Aplicações de Machine Learning da maneira como são feitas hoje comumente requerem coleta de dados manual, que pode demorar para ser feita e, por isso, limita aplicações que requerem conjuntos de dados grandes. O trabalho trata do projeto de uma aplicação web onde o usuário terá as possibilidades de criar, armazenar e carregar detectores de objetos e datasets de maneira automática, removendo a necessidade de coletar manualmente as imagens. A criação é feita dinamicamente, de forma que os datasets utilizados no treinamento serão criados de maneira on demand fazendo uso de web crawling, tirando assim a restrição de se utilizar datasets prontos, que nem sempre são encontrados para aplicações específicas. Em seguida, são realizados testes relativos aos subsistemas de Inteligência Artificial envolvidos em cada etapa do projeto descrito e a viabilidade da criação de uma aplicação desse tipo é analisada, tendo em vista os resultados dos experimentos supracitados. O projeto consiste em dois passos principais: remoção de imagens ruidosas e treinamento de classificadores com as restantes. Os métodos propostos atingiram 94.4% no primeiro passo e 98.98% no segundo usando imagens obtidas usando classes do CIFAR-10 como queries.Submitted by Luanna Maia (luanna@bce.unb.br) on 2018-11-20T13:39:57Z No. of bitstreams: 3 license_text: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) 2018_HugoLuisAndradeSilva_tcc.pdf: 80273671 bytes, checksum: 95eddfddd7cc43f38eaaa2bdc777f127 (MD5)Approved for entry into archive by Luanna Maia (luanna@bce.unb.br) on 2018-11-20T13:40:12Z (GMT) No. of bitstreams: 3 license_text: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) 2018_HugoLuisAndradeSilva_tcc.pdf: 80273671 bytes, checksum: 95eddfddd7cc43f38eaaa2bdc777f127 (MD5)Made available in DSpace on 2018-11-20T13:40:12Z (GMT). No. of bitstreams: 3 license_text: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) 2018_HugoLuisAndradeSilva_tcc.pdf: 80273671 bytes, checksum: 95eddfddd7cc43f38eaaa2bdc777f127 (MD5)Current Machine Learning applications usually require manual data collection, which take long to complete and thus may limit applications which require large datasets. This project designs a web application where the user will have the possibilities of creating, storing and loading object detectors and datasets automatically, removing the need to manually collect images. Creation is done dinamically, and the datasets used are created on demand using web crawling, removing the restriction of having to utilize already existing datasets, which may not exist for speciffic applications. Next, Artificial Intelligence subsystems present on each step of the described project are tested and the viability of creating such a web application is analyzed in light of the results of the above mentioned experiments. The project is consists of two main steps: removing noisy images and training classifiers with the rest. The proposed methods achieved 94.4% on the first step and 98.98% on the second one on images downloaded using CIFAR-10 classes as queries.Aprendizado do computadorVisão por computadorReconhecimento de padrõesCriação automática de datasets e treinamento de classificadores sob demanda a partir de web crawling e deep learninginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis2018-11-20T13:40:12Z2018-11-20T13:40:12Z2018-08-08info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Monografias da UnBinstname:Universidade de Brasília (UnB)instacron:UNBLICENSElicense.txtlicense.txttext/plain1817http://bdm.unb.br/xmlui/bitstream/10483/21060/5/license.txt21554873e56ad8ddc69c092699b98f95MD55CC-LICENSElicense_urllicense_urltext/plain49http://bdm.unb.br/xmlui/bitstream/10483/21060/2/license_url4afdbb8c545fd630ea7db775da747b2fMD52license_textlicense_textapplication/octet-stream0http://bdm.unb.br/xmlui/bitstream/10483/21060/3/license_textd41d8cd98f00b204e9800998ecf8427eMD53license_rdflicense_rdfapplication/octet-stream0http://bdm.unb.br/xmlui/bitstream/10483/21060/4/license_rdfd41d8cd98f00b204e9800998ecf8427eMD54ORIGINAL2018_HugoLuisAndradeSilva_tcc.pdf2018_HugoLuisAndradeSilva_tcc.pdfapplication/pdf80273671http://bdm.unb.br/xmlui/bitstream/10483/21060/1/2018_HugoLuisAndradeSilva_tcc.pdf95eddfddd7cc43f38eaaa2bdc777f127MD5110483/210602018-11-20 11:40:12.535oai:bdm.unb.br:10483/21060w4kgbmVjZXNzw6FyaW8gY29uY29yZGFyIGNvbSBhIGxpY2Vuw6dhIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhLAphbnRlcyBxdWUgbyBkb2N1bWVudG8gcG9zc2EgYXBhcmVjZXIgbmEgQmlibGlvdGVjYSBEaWdpdGFsIGRhIFByb2R1w6fDo28gCkRpc2NlbnRlIGRhIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEuIFBvciBmYXZvciwgbGVpYSBhCmxpY2Vuw6dhIGF0ZW50YW1lbnRlLiBDYXNvIG5lY2Vzc2l0ZSBkZSBhbGd1bSBlc2NsYXJlY2ltZW50byBlbnRyZSBlbQpjb250YXRvIGF0cmF2w6lzIGRlOiBiZG1AYmNlLnVuYi5iciBvdSAzMTA3LTI2ODcuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQW8gYXNzaW5hciBlIGVudHJlZ2FyIGVzdGEgbGljZW7Dp2EsIG8vYSBTci4vU3JhLiAoYXV0b3Igb3UgZGV0ZW50b3IgZG9zCmRpcmVpdG9zIGRlIGF1dG9yKToKCmEpIENvbmNlZGUgw6AgVW5pdmVyc2lkYWRlIGRlIEJyYXPDrWxpYSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUKcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGNvbXVuaWNhciBlL291CmRpc3RyaWJ1aXIgbyBkb2N1bWVudG8gZW50cmVndWUgKGluY2x1aW5kbyBvIHJlc3Vtby9hYnN0cmFjdCkgZW0KZm9ybWF0byBkaWdpdGFsIG91IGltcHJlc3NvIGUgZW0gcXVhbHF1ZXIgbWVpby4KCmIpIERlY2xhcmEgcXVlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIHNldSB0cmFiYWxobyBvcmlnaW5hbCwgZSBxdWUKZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYQp0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50byBsaGUgw6kKcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBvdXRyYSBwZXNzb2Egb3UgZW50aWRhZGUuCgpjKSBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSBjb250w6ltIG1hdGVyaWFsIGRvIHF1YWwgbsOjbyBkZXTDqW0gb3MKZGlyZWl0b3MgZGUgYXV0b3IsIGRlY2xhcmEgcXVlIG9idGV2ZSBhdXRvcml6YcOnw6NvIGRvIGRldGVudG9yIGRvcwpkaXJlaXRvcyBkZSBhdXRvciBwYXJhIGNvbmNlZGVyIMOgIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEgb3MgZGlyZWl0b3MKcmVxdWVyaWRvcyBwb3IgZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBjdWpvcyBkaXJlaXRvcyBzw6NvIGRlCnRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIG91CmNvbnRlw7pkbyBkbyBkb2N1bWVudG8gZW50cmVndWUuCgpTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbwpwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUgbsOjbyBhIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEsIGRlY2xhcmEgcXVlCmN1bXByaXUgcXVhaXNxdWVyIG9icmlnYcOnw7VlcyBleGlnaWRhcyBwZWxvIHJlc3BlY3Rpdm8gY29udHJhdG8gb3UKYWNvcmRvLgoKQSBVbml2ZXJzaWRhZGUgZGUgQnJhc8OtbGlhIGlkZW50aWZpY2Fyw6EgY2xhcmFtZW50ZSBvKHMpIHNldSAocykgbm9tZSAocykKY29tbyBvIChzKSBhdXRvciAoZXMpIG91IGRldGVudG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50bwplbnRyZWd1ZSwgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRhcyBwZXJtaXRpZGFzIHBvcgplc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Monografiahttps://bdm.unb.br/PUBhttp://bdm.unb.br/oai/requestbdm@bce.unb.br||patricia@bce.unb.bropendoar:115712018-11-20T13:40:12Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB)false
dc.title.pt_BR.fl_str_mv Criação automática de datasets e treinamento de classificadores sob demanda a partir de web crawling e deep learning
title Criação automática de datasets e treinamento de classificadores sob demanda a partir de web crawling e deep learning
spellingShingle Criação automática de datasets e treinamento de classificadores sob demanda a partir de web crawling e deep learning
Silva, Hugo Luís Andrade
Aprendizado do computador
Visão por computador
Reconhecimento de padrões
title_short Criação automática de datasets e treinamento de classificadores sob demanda a partir de web crawling e deep learning
title_full Criação automática de datasets e treinamento de classificadores sob demanda a partir de web crawling e deep learning
title_fullStr Criação automática de datasets e treinamento de classificadores sob demanda a partir de web crawling e deep learning
title_full_unstemmed Criação automática de datasets e treinamento de classificadores sob demanda a partir de web crawling e deep learning
title_sort Criação automática de datasets e treinamento de classificadores sob demanda a partir de web crawling e deep learning
author Silva, Hugo Luís Andrade
author_facet Silva, Hugo Luís Andrade
author_role author
dc.contributor.author.fl_str_mv Silva, Hugo Luís Andrade
dc.contributor.advisor1.fl_str_mv Lamar, Marcus Vinicius
contributor_str_mv Lamar, Marcus Vinicius
dc.subject.keyword.pt_BR.fl_str_mv Aprendizado do computador
Visão por computador
Reconhecimento de padrões
topic Aprendizado do computador
Visão por computador
Reconhecimento de padrões
description Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2018.
publishDate 2018
dc.date.submitted.none.fl_str_mv 2018-08-08
dc.date.accessioned.fl_str_mv 2018-11-20T13:40:12Z
dc.date.available.fl_str_mv 2018-11-20T13:40:12Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SILVA, Hugo Luís Andrade. Criação automática de datasets e treinamento de classificadores sob demanda a partir de web crawling e deep learning. 2018. 119 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2018.
dc.identifier.uri.fl_str_mv http://bdm.unb.br/handle/10483/21060
identifier_str_mv SILVA, Hugo Luís Andrade. Criação automática de datasets e treinamento de classificadores sob demanda a partir de web crawling e deep learning. 2018. 119 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2018.
url http://bdm.unb.br/handle/10483/21060
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Monografias da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Biblioteca Digital de Monografias da UnB
collection Biblioteca Digital de Monografias da UnB
bitstream.url.fl_str_mv http://bdm.unb.br/xmlui/bitstream/10483/21060/5/license.txt
http://bdm.unb.br/xmlui/bitstream/10483/21060/2/license_url
http://bdm.unb.br/xmlui/bitstream/10483/21060/3/license_text
http://bdm.unb.br/xmlui/bitstream/10483/21060/4/license_rdf
http://bdm.unb.br/xmlui/bitstream/10483/21060/1/2018_HugoLuisAndradeSilva_tcc.pdf
bitstream.checksum.fl_str_mv 21554873e56ad8ddc69c092699b98f95
4afdbb8c545fd630ea7db775da747b2f
d41d8cd98f00b204e9800998ecf8427e
d41d8cd98f00b204e9800998ecf8427e
95eddfddd7cc43f38eaaa2bdc777f127
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv bdm@bce.unb.br||patricia@bce.unb.br
_version_ 1801493072485285888