Ferramenta para digitalização de acervos baseada em crowdsourcing

Detalhes bibliográficos
Autor(a) principal: Pastori, Mateus
Data de Publicação: 2015
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UCS
Texto Completo: https://repositorio.ucs.br/handle/11338/1212
Resumo: Apesar dos sistemas de reconhecimento ótico de caracteres (OCR) terem evoluído consideravelmente nas últimas décadas, eles ainda apresentam algumas falhas, principalmente tratando-se da digitalização de documentos antigos. No entanto, com a rápida expansão da internet nos últimos anos e os bilhões de usuários espalhados pelo planeta, novos paradigmas de interação humano-computador vêm ganhando força, como é o caso do crowdsourcing. Esse paradigma baseia-se na colaboração on-line em escala massiva, ou seja, o seu principal objetivo é utilizar a capacidade intelectual humana, de uma multidão de usuários, para resolver algum problema computacional aberto. Um desses problemas é o reconhecimento ótico de caracteres, que pode ser facilmente resolvido utilizando uma ferramenta baseada em crowdsourcing. Baseando-se nisso, esse trabalho teve como principal objetivo desenvolver um protótipo para a digitalização de acervos, que utilize um software de OCR, e que faça o uso do crowdsourcing, buscando corrigir as eventuais falhas resultantes do mesmo. O estudo de algumas ferramentas revelou que isso pode ser feito utilizando mecanismos de segurança para websites, denominados CAPTCHAs. A principal função de um CAPTCHA é distinguir usuários humanos de máquinas. O CAPTCHA pode ser utilizado em diversos tipos de websites, como sites de enquetes on-line e de contas de e-mail. Esse fato torna o CAPTCHA um mecanismo de crowdsourcing extremamente poderoso, por oferecer a possibilidade e facilidade de ser utilizado em larga escala. Definidas a arquitetura e as ferramentas a serem utilizadas, foi desenvolvido um protótipo composto de uma aplicação web e uma API CAPTCHA. A aplicação web possibilita a digitalização de documentos, para isso ela faz uso de um software OCR. A API CAPTCHA atua como uma ferramenta de crowdsourcing, cuja a função é resolver as falhas resultantes do processamento do OCR (sic)
id UCS_ba82e83988367ddd4f9f0d9a92480f53
oai_identifier_str oai:repositorio.ucs.br:11338/1212
network_acronym_str UCS
network_name_str Repositório Institucional da UCS
repository_id_str
spelling Pastori, MateusRocco, Giovanni ElyDorneles, Ricardo VargasLima, Maria de Fátima Webber do Prado2016-07-19T16:13:42Z2016-07-19T16:13:42Z2015https://repositorio.ucs.br/handle/11338/1212Apesar dos sistemas de reconhecimento ótico de caracteres (OCR) terem evoluído consideravelmente nas últimas décadas, eles ainda apresentam algumas falhas, principalmente tratando-se da digitalização de documentos antigos. No entanto, com a rápida expansão da internet nos últimos anos e os bilhões de usuários espalhados pelo planeta, novos paradigmas de interação humano-computador vêm ganhando força, como é o caso do crowdsourcing. Esse paradigma baseia-se na colaboração on-line em escala massiva, ou seja, o seu principal objetivo é utilizar a capacidade intelectual humana, de uma multidão de usuários, para resolver algum problema computacional aberto. Um desses problemas é o reconhecimento ótico de caracteres, que pode ser facilmente resolvido utilizando uma ferramenta baseada em crowdsourcing. Baseando-se nisso, esse trabalho teve como principal objetivo desenvolver um protótipo para a digitalização de acervos, que utilize um software de OCR, e que faça o uso do crowdsourcing, buscando corrigir as eventuais falhas resultantes do mesmo. O estudo de algumas ferramentas revelou que isso pode ser feito utilizando mecanismos de segurança para websites, denominados CAPTCHAs. A principal função de um CAPTCHA é distinguir usuários humanos de máquinas. O CAPTCHA pode ser utilizado em diversos tipos de websites, como sites de enquetes on-line e de contas de e-mail. Esse fato torna o CAPTCHA um mecanismo de crowdsourcing extremamente poderoso, por oferecer a possibilidade e facilidade de ser utilizado em larga escala. Definidas a arquitetura e as ferramentas a serem utilizadas, foi desenvolvido um protótipo composto de uma aplicação web e uma API CAPTCHA. A aplicação web possibilita a digitalização de documentos, para isso ela faz uso de um software OCR. A API CAPTCHA atua como uma ferramenta de crowdsourcing, cuja a função é resolver as falhas resultantes do processamento do OCR (sic)Reconhecimento ótico de caracteresSistemas de reconhecimento de padrõesFerramenta para digitalização de acervos baseada em crowdsourcinginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporreponame:Repositório Institucional da UCSinstname:Universidade de Caxias do Sul (UCS)instacron:UCSinfo:eu-repo/semantics/openAccessUniversidade de Caxias do SulBacharelado em Sistemas de InformaçãoTEXTTCC Mateus Pastori.pdf.txtTCC Mateus Pastori.pdf.txtExtracted texttext/plain149271https://repositorio.ucs.br/xmlui/bitstream/11338/1212/3/TCC%20Mateus%20Pastori.pdf.txt37e3493ad7fd50f7d3ce79819e00279cMD53THUMBNAILTCC Mateus Pastori.pdf.jpgTCC Mateus Pastori.pdf.jpgGenerated Thumbnailimage/jpeg1160https://repositorio.ucs.br/xmlui/bitstream/11338/1212/4/TCC%20Mateus%20Pastori.pdf.jpg7ab59f5130e0e43244d4a33dede33470MD54ORIGINALTCC Mateus Pastori.pdfTCC Mateus Pastori.pdfapplication/pdf2811451https://repositorio.ucs.br/xmlui/bitstream/11338/1212/1/TCC%20Mateus%20Pastori.pdf153ba93fe55a97b91a20844081cf2fdfMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.ucs.br/xmlui/bitstream/11338/1212/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD5211338/12122018-08-17 06:27:04.426oai:repositorio.ucs.br:11338/1212Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório de Publicaçõeshttp://repositorio.ucs.br/oai/requestopendoar:2018-08-17T06:27:04Repositório Institucional da UCS - Universidade de Caxias do Sul (UCS)false
dc.title.pt_BR.fl_str_mv Ferramenta para digitalização de acervos baseada em crowdsourcing
title Ferramenta para digitalização de acervos baseada em crowdsourcing
spellingShingle Ferramenta para digitalização de acervos baseada em crowdsourcing
Pastori, Mateus
Reconhecimento ótico de caracteres
Sistemas de reconhecimento de padrões
title_short Ferramenta para digitalização de acervos baseada em crowdsourcing
title_full Ferramenta para digitalização de acervos baseada em crowdsourcing
title_fullStr Ferramenta para digitalização de acervos baseada em crowdsourcing
title_full_unstemmed Ferramenta para digitalização de acervos baseada em crowdsourcing
title_sort Ferramenta para digitalização de acervos baseada em crowdsourcing
author Pastori, Mateus
author_facet Pastori, Mateus
author_role author
dc.contributor.other.none.fl_str_mv Rocco, Giovanni Ely
Dorneles, Ricardo Vargas
dc.contributor.author.fl_str_mv Pastori, Mateus
dc.contributor.advisor1.fl_str_mv Lima, Maria de Fátima Webber do Prado
contributor_str_mv Lima, Maria de Fátima Webber do Prado
dc.subject.por.fl_str_mv Reconhecimento ótico de caracteres
Sistemas de reconhecimento de padrões
topic Reconhecimento ótico de caracteres
Sistemas de reconhecimento de padrões
description Apesar dos sistemas de reconhecimento ótico de caracteres (OCR) terem evoluído consideravelmente nas últimas décadas, eles ainda apresentam algumas falhas, principalmente tratando-se da digitalização de documentos antigos. No entanto, com a rápida expansão da internet nos últimos anos e os bilhões de usuários espalhados pelo planeta, novos paradigmas de interação humano-computador vêm ganhando força, como é o caso do crowdsourcing. Esse paradigma baseia-se na colaboração on-line em escala massiva, ou seja, o seu principal objetivo é utilizar a capacidade intelectual humana, de uma multidão de usuários, para resolver algum problema computacional aberto. Um desses problemas é o reconhecimento ótico de caracteres, que pode ser facilmente resolvido utilizando uma ferramenta baseada em crowdsourcing. Baseando-se nisso, esse trabalho teve como principal objetivo desenvolver um protótipo para a digitalização de acervos, que utilize um software de OCR, e que faça o uso do crowdsourcing, buscando corrigir as eventuais falhas resultantes do mesmo. O estudo de algumas ferramentas revelou que isso pode ser feito utilizando mecanismos de segurança para websites, denominados CAPTCHAs. A principal função de um CAPTCHA é distinguir usuários humanos de máquinas. O CAPTCHA pode ser utilizado em diversos tipos de websites, como sites de enquetes on-line e de contas de e-mail. Esse fato torna o CAPTCHA um mecanismo de crowdsourcing extremamente poderoso, por oferecer a possibilidade e facilidade de ser utilizado em larga escala. Definidas a arquitetura e as ferramentas a serem utilizadas, foi desenvolvido um protótipo composto de uma aplicação web e uma API CAPTCHA. A aplicação web possibilita a digitalização de documentos, para isso ela faz uso de um software OCR. A API CAPTCHA atua como uma ferramenta de crowdsourcing, cuja a função é resolver as falhas resultantes do processamento do OCR (sic)
publishDate 2015
dc.date.submitted.none.fl_str_mv 2015
dc.date.accessioned.fl_str_mv 2016-07-19T16:13:42Z
dc.date.available.fl_str_mv 2016-07-19T16:13:42Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ucs.br/handle/11338/1212
url https://repositorio.ucs.br/handle/11338/1212
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da UCS
instname:Universidade de Caxias do Sul (UCS)
instacron:UCS
instname_str Universidade de Caxias do Sul (UCS)
instacron_str UCS
institution UCS
reponame_str Repositório Institucional da UCS
collection Repositório Institucional da UCS
bitstream.url.fl_str_mv https://repositorio.ucs.br/xmlui/bitstream/11338/1212/3/TCC%20Mateus%20Pastori.pdf.txt
https://repositorio.ucs.br/xmlui/bitstream/11338/1212/4/TCC%20Mateus%20Pastori.pdf.jpg
https://repositorio.ucs.br/xmlui/bitstream/11338/1212/1/TCC%20Mateus%20Pastori.pdf
https://repositorio.ucs.br/xmlui/bitstream/11338/1212/2/license.txt
bitstream.checksum.fl_str_mv 37e3493ad7fd50f7d3ce79819e00279c
7ab59f5130e0e43244d4a33dede33470
153ba93fe55a97b91a20844081cf2fdf
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UCS - Universidade de Caxias do Sul (UCS)
repository.mail.fl_str_mv
_version_ 1798308879937830912