CrawlEX: uma ferramenta para extração de dados na web configurável através de exemplos

Detalhes bibliográficos
Autor(a) principal: Lessa, Marcos Aurélio
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/handle/123456789/237991
Resumo: TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Ciências da Computação.
id UFSC_7bd9962f89553ae74af27985c146e59b
oai_identifier_str oai:repositorio.ufsc.br:123456789/237991
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Universidade Federal de Santa CatarinaLessa, Marcos AurélioDorneles, Carina Friedrich2022-08-06T00:17:55Z2022-08-06T00:17:55Z2022-07-29https://repositorio.ufsc.br/handle/123456789/237991TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Ciências da Computação.Com o grande avanço da internet ao longo dos anos, é natural que tenhamos uma enorme quantidade de dados disponível na rede. Esses dados, podem nos informar coisas completamente diferentes, como o que foi falado no último discurso do Presidente da República ou, a coordenada geográfica de um local que estamos interessados em visitar. Dependendo do perfil de interesse de um usuário ou até mesmo de uma empresa, é muito importante ter esses dados em mãos para que se possa analisá-los e, eventualmente, tomar algum tipo de ação. Porém, na grande maioria das vezes, é inviável que esses dados sejam coletados manualmente, pois demandam tempo e esforço, logo, faz-se necessário que a coletada seja feita de maneira automática, permitindo ao interessado apenas fazer a análise daquilo que efetivamente já foi coletado. Além disso, para que a configuração de uma coleta de um website seja feita de forma automática, é necessário que o usuário tenha habilidade em programação, sendo assim, um empecilho para muitas pessoas. Nesse contexto, o presente trabalho apresenta uma ferramenta para navegação e extração de artigos disponíveis na internet, onde um web crawler pode ser configurado por um usuário comum, sem conhecimentos em programação, apenas por fornecer exemplos de artigos das páginas as quais tem interesse. É apresentado os experimentos feitos pelo autor e usuários leigos, e depois analisados os seus resultados.127 f.Florianópolis, SC.extração de dadosartigosweb crawlerCrawlEX: uma ferramenta para extração de dados na web configurável através de exemplosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCLICENSElicense.txtlicense.txttext/plain; charset=utf-81383https://repositorio.ufsc.br/bitstream/123456789/237991/2/license.txt11ee89cd31d893362820eab7c4d46734MD52ORIGINALTCC.pdfTCC.pdfTCCapplication/pdf2296143https://repositorio.ufsc.br/bitstream/123456789/237991/1/TCC.pdf3815715dc5d98cab315bfc6b6cd77f57MD51123456789/2379912022-08-05 21:17:55.292oai:repositorio.ufsc.br:123456789/237991Vm9jw6ogdGVtIGEgbGliZXJkYWRlIGRlOiBDb21wYXJ0aWxoYXIg4oCUIGNvcGlhciwgZGlzdHJpYnVpciBlIHRyYW5zbWl0aXIgYSBvYnJhLiBSZW1peGFyIOKAlCBjcmlhciBvYnJhcyBkZXJpdmFkYXMuClNvYiBhcyBzZWd1aW50ZXMgY29uZGnDp8O1ZXM6IEF0cmlidWnDp8OjbyDigJQgVm9jw6ogZGV2ZSBjcmVkaXRhciBhIG9icmEgZGEgZm9ybWEgZXNwZWNpZmljYWRhIHBlbG8gYXV0b3Igb3UgbGljZW5jaWFudGUgKG1hcyBuw6NvIGRlIG1hbmVpcmEgcXVlIHN1Z2lyYSBxdWUgZXN0ZXMgY29uY2VkZW0gcXVhbHF1ZXIgYXZhbCBhIHZvY8OqIG91IGFvIHNldSB1c28gZGEgb2JyYSkuIFVzbyBuw6NvLWNvbWVyY2lhbCDigJQgVm9jw6ogbsOjbyBwb2RlIHVzYXIgZXN0YSBvYnJhIHBhcmEgZmlucyBjb21lcmNpYWlzLgpGaWNhbmRvIGNsYXJvIHF1ZTogUmVuw7puY2lhIOKAlCBRdWFscXVlciBkYXMgY29uZGnDp8O1ZXMgYWNpbWEgcG9kZSBzZXIgcmVudW5jaWFkYSBzZSB2b2PDqiBvYnRpdmVyIHBlcm1pc3PDo28gZG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMuIERvbcOtbmlvIFDDumJsaWNvIOKAlCBPbmRlIGEgb2JyYSBvdSBxdWFscXVlciBkZSBzZXVzIGVsZW1lbnRvcyBlc3RpdmVyIGVtIGRvbcOtbmlvIHDDumJsaWNvIHNvYiBvIGRpcmVpdG8gYXBsaWPDoXZlbCwgZXN0YSBjb25kacOnw6NvIG7Do28gw6ksIGRlIG1hbmVpcmEgYWxndW1hLCBhZmV0YWRhIHBlbGEgbGljZW7Dp2EuIE91dHJvcyBEaXJlaXRvcyDigJQgT3Mgc2VndWludGVzIGRpcmVpdG9zIG7Do28gc8OjbywgZGUgbWFuZWlyYSBhbGd1bWEsIGFmZXRhZG9zIHBlbGEgbGljZW7Dp2E6IExpbWl0YcOnw7VlcyBlIGV4Y2XDp8O1ZXMgYW9zIGRpcmVpdG9zIGF1dG9yYWlzIG91IHF1YWlzcXVlciB1c29zIGxpdnJlcyBhcGxpY8OhdmVpczsgT3MgZGlyZWl0b3MgbW9yYWlzIGRvIGF1dG9yOyBEaXJlaXRvcyBxdWUgb3V0cmFzIHBlc3NvYXMgcG9kZW0gdGVyIHNvYnJlIGEgb2JyYSBvdSBzb2JyZSBhIHV0aWxpemHDp8OjbyBkYSBvYnJhLCB0YWlzIGNvbW8gZGlyZWl0b3MgZGUgaW1hZ2VtIG91IHByaXZhY2lkYWRlLiBBdmlzbyDigJQgUGFyYSBxdWFscXVlciByZXV0aWxpemHDp8OjbyBvdSBkaXN0cmlidWnDp8Ojbywgdm9jw6ogZGV2ZSBkZWl4YXIgY2xhcm8gYSB0ZXJjZWlyb3Mgb3MgdGVybW9zIGRhIGxpY2Vuw6dhIGEgcXVlIHNlIGVuY29udHJhIHN1Ym1ldGlkYSBlc3RhIG9icmEuIEEgbWVsaG9yIG1hbmVpcmEgZGUgZmF6ZXIgaXNzbyDDqSBjb20gdW0gbGluayBwYXJhIGVzdGEgcMOhZ2luYS4KTGljZW7Dp2EgQ3JlYXRpdmUgQ29tbW9ucyAtIGh0dHA6Ly9jcmVhdGl2ZWNvbW1vbnMub3JnL2xpY2Vuc2VzL2J5LW5jLzMuMC9ici8KRepositório de PublicaçõesPUBhttp://150.162.242.35/oai/requestopendoar:23732022-08-06T00:17:55Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.pt_BR.fl_str_mv CrawlEX: uma ferramenta para extração de dados na web configurável através de exemplos
title CrawlEX: uma ferramenta para extração de dados na web configurável através de exemplos
spellingShingle CrawlEX: uma ferramenta para extração de dados na web configurável através de exemplos
Lessa, Marcos Aurélio
extração de dados
artigos
web crawler
title_short CrawlEX: uma ferramenta para extração de dados na web configurável através de exemplos
title_full CrawlEX: uma ferramenta para extração de dados na web configurável através de exemplos
title_fullStr CrawlEX: uma ferramenta para extração de dados na web configurável através de exemplos
title_full_unstemmed CrawlEX: uma ferramenta para extração de dados na web configurável através de exemplos
title_sort CrawlEX: uma ferramenta para extração de dados na web configurável através de exemplos
author Lessa, Marcos Aurélio
author_facet Lessa, Marcos Aurélio
author_role author
dc.contributor.pt_BR.fl_str_mv Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Lessa, Marcos Aurélio
dc.contributor.advisor1.fl_str_mv Dorneles, Carina Friedrich
contributor_str_mv Dorneles, Carina Friedrich
dc.subject.por.fl_str_mv extração de dados
artigos
web crawler
topic extração de dados
artigos
web crawler
description TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Ciências da Computação.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-08-06T00:17:55Z
dc.date.available.fl_str_mv 2022-08-06T00:17:55Z
dc.date.issued.fl_str_mv 2022-07-29
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/237991
url https://repositorio.ufsc.br/handle/123456789/237991
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 127 f.
dc.publisher.none.fl_str_mv Florianópolis, SC.
publisher.none.fl_str_mv Florianópolis, SC.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/237991/2/license.txt
https://repositorio.ufsc.br/bitstream/123456789/237991/1/TCC.pdf
bitstream.checksum.fl_str_mv 11ee89cd31d893362820eab7c4d46734
3815715dc5d98cab315bfc6b6cd77f57
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1766805150703288320