CrawlEX: uma ferramenta para extração de dados na web configurável através de exemplos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSC |
Texto Completo: | https://repositorio.ufsc.br/handle/123456789/237991 |
Resumo: | TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Ciências da Computação. |
id |
UFSC_7bd9962f89553ae74af27985c146e59b |
---|---|
oai_identifier_str |
oai:repositorio.ufsc.br:123456789/237991 |
network_acronym_str |
UFSC |
network_name_str |
Repositório Institucional da UFSC |
repository_id_str |
2373 |
spelling |
Universidade Federal de Santa CatarinaLessa, Marcos AurélioDorneles, Carina Friedrich2022-08-06T00:17:55Z2022-08-06T00:17:55Z2022-07-29https://repositorio.ufsc.br/handle/123456789/237991TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Ciências da Computação.Com o grande avanço da internet ao longo dos anos, é natural que tenhamos uma enorme quantidade de dados disponível na rede. Esses dados, podem nos informar coisas completamente diferentes, como o que foi falado no último discurso do Presidente da República ou, a coordenada geográfica de um local que estamos interessados em visitar. Dependendo do perfil de interesse de um usuário ou até mesmo de uma empresa, é muito importante ter esses dados em mãos para que se possa analisá-los e, eventualmente, tomar algum tipo de ação. Porém, na grande maioria das vezes, é inviável que esses dados sejam coletados manualmente, pois demandam tempo e esforço, logo, faz-se necessário que a coletada seja feita de maneira automática, permitindo ao interessado apenas fazer a análise daquilo que efetivamente já foi coletado. Além disso, para que a configuração de uma coleta de um website seja feita de forma automática, é necessário que o usuário tenha habilidade em programação, sendo assim, um empecilho para muitas pessoas. Nesse contexto, o presente trabalho apresenta uma ferramenta para navegação e extração de artigos disponíveis na internet, onde um web crawler pode ser configurado por um usuário comum, sem conhecimentos em programação, apenas por fornecer exemplos de artigos das páginas as quais tem interesse. É apresentado os experimentos feitos pelo autor e usuários leigos, e depois analisados os seus resultados.127 f.Florianópolis, SC.extração de dadosartigosweb crawlerCrawlEX: uma ferramenta para extração de dados na web configurável através de exemplosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCLICENSElicense.txtlicense.txttext/plain; charset=utf-81383https://repositorio.ufsc.br/bitstream/123456789/237991/2/license.txt11ee89cd31d893362820eab7c4d46734MD52ORIGINALTCC.pdfTCC.pdfTCCapplication/pdf2296143https://repositorio.ufsc.br/bitstream/123456789/237991/1/TCC.pdf3815715dc5d98cab315bfc6b6cd77f57MD51123456789/2379912022-08-05 21:17:55.292oai:repositorio.ufsc.br:123456789/237991Vm9jw6ogdGVtIGEgbGliZXJkYWRlIGRlOiBDb21wYXJ0aWxoYXIg4oCUIGNvcGlhciwgZGlzdHJpYnVpciBlIHRyYW5zbWl0aXIgYSBvYnJhLiBSZW1peGFyIOKAlCBjcmlhciBvYnJhcyBkZXJpdmFkYXMuClNvYiBhcyBzZWd1aW50ZXMgY29uZGnDp8O1ZXM6IEF0cmlidWnDp8OjbyDigJQgVm9jw6ogZGV2ZSBjcmVkaXRhciBhIG9icmEgZGEgZm9ybWEgZXNwZWNpZmljYWRhIHBlbG8gYXV0b3Igb3UgbGljZW5jaWFudGUgKG1hcyBuw6NvIGRlIG1hbmVpcmEgcXVlIHN1Z2lyYSBxdWUgZXN0ZXMgY29uY2VkZW0gcXVhbHF1ZXIgYXZhbCBhIHZvY8OqIG91IGFvIHNldSB1c28gZGEgb2JyYSkuIFVzbyBuw6NvLWNvbWVyY2lhbCDigJQgVm9jw6ogbsOjbyBwb2RlIHVzYXIgZXN0YSBvYnJhIHBhcmEgZmlucyBjb21lcmNpYWlzLgpGaWNhbmRvIGNsYXJvIHF1ZTogUmVuw7puY2lhIOKAlCBRdWFscXVlciBkYXMgY29uZGnDp8O1ZXMgYWNpbWEgcG9kZSBzZXIgcmVudW5jaWFkYSBzZSB2b2PDqiBvYnRpdmVyIHBlcm1pc3PDo28gZG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMuIERvbcOtbmlvIFDDumJsaWNvIOKAlCBPbmRlIGEgb2JyYSBvdSBxdWFscXVlciBkZSBzZXVzIGVsZW1lbnRvcyBlc3RpdmVyIGVtIGRvbcOtbmlvIHDDumJsaWNvIHNvYiBvIGRpcmVpdG8gYXBsaWPDoXZlbCwgZXN0YSBjb25kacOnw6NvIG7Do28gw6ksIGRlIG1hbmVpcmEgYWxndW1hLCBhZmV0YWRhIHBlbGEgbGljZW7Dp2EuIE91dHJvcyBEaXJlaXRvcyDigJQgT3Mgc2VndWludGVzIGRpcmVpdG9zIG7Do28gc8OjbywgZGUgbWFuZWlyYSBhbGd1bWEsIGFmZXRhZG9zIHBlbGEgbGljZW7Dp2E6IExpbWl0YcOnw7VlcyBlIGV4Y2XDp8O1ZXMgYW9zIGRpcmVpdG9zIGF1dG9yYWlzIG91IHF1YWlzcXVlciB1c29zIGxpdnJlcyBhcGxpY8OhdmVpczsgT3MgZGlyZWl0b3MgbW9yYWlzIGRvIGF1dG9yOyBEaXJlaXRvcyBxdWUgb3V0cmFzIHBlc3NvYXMgcG9kZW0gdGVyIHNvYnJlIGEgb2JyYSBvdSBzb2JyZSBhIHV0aWxpemHDp8OjbyBkYSBvYnJhLCB0YWlzIGNvbW8gZGlyZWl0b3MgZGUgaW1hZ2VtIG91IHByaXZhY2lkYWRlLiBBdmlzbyDigJQgUGFyYSBxdWFscXVlciByZXV0aWxpemHDp8OjbyBvdSBkaXN0cmlidWnDp8Ojbywgdm9jw6ogZGV2ZSBkZWl4YXIgY2xhcm8gYSB0ZXJjZWlyb3Mgb3MgdGVybW9zIGRhIGxpY2Vuw6dhIGEgcXVlIHNlIGVuY29udHJhIHN1Ym1ldGlkYSBlc3RhIG9icmEuIEEgbWVsaG9yIG1hbmVpcmEgZGUgZmF6ZXIgaXNzbyDDqSBjb20gdW0gbGluayBwYXJhIGVzdGEgcMOhZ2luYS4KTGljZW7Dp2EgQ3JlYXRpdmUgQ29tbW9ucyAtIGh0dHA6Ly9jcmVhdGl2ZWNvbW1vbnMub3JnL2xpY2Vuc2VzL2J5LW5jLzMuMC9ici8KRepositório de PublicaçõesPUBhttp://150.162.242.35/oai/requestopendoar:23732022-08-06T00:17:55Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false |
dc.title.pt_BR.fl_str_mv |
CrawlEX: uma ferramenta para extração de dados na web configurável através de exemplos |
title |
CrawlEX: uma ferramenta para extração de dados na web configurável através de exemplos |
spellingShingle |
CrawlEX: uma ferramenta para extração de dados na web configurável através de exemplos Lessa, Marcos Aurélio extração de dados artigos web crawler |
title_short |
CrawlEX: uma ferramenta para extração de dados na web configurável através de exemplos |
title_full |
CrawlEX: uma ferramenta para extração de dados na web configurável através de exemplos |
title_fullStr |
CrawlEX: uma ferramenta para extração de dados na web configurável através de exemplos |
title_full_unstemmed |
CrawlEX: uma ferramenta para extração de dados na web configurável através de exemplos |
title_sort |
CrawlEX: uma ferramenta para extração de dados na web configurável através de exemplos |
author |
Lessa, Marcos Aurélio |
author_facet |
Lessa, Marcos Aurélio |
author_role |
author |
dc.contributor.pt_BR.fl_str_mv |
Universidade Federal de Santa Catarina |
dc.contributor.author.fl_str_mv |
Lessa, Marcos Aurélio |
dc.contributor.advisor1.fl_str_mv |
Dorneles, Carina Friedrich |
contributor_str_mv |
Dorneles, Carina Friedrich |
dc.subject.por.fl_str_mv |
extração de dados artigos web crawler |
topic |
extração de dados artigos web crawler |
description |
TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Ciências da Computação. |
publishDate |
2022 |
dc.date.accessioned.fl_str_mv |
2022-08-06T00:17:55Z |
dc.date.available.fl_str_mv |
2022-08-06T00:17:55Z |
dc.date.issued.fl_str_mv |
2022-07-29 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufsc.br/handle/123456789/237991 |
url |
https://repositorio.ufsc.br/handle/123456789/237991 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
127 f. |
dc.publisher.none.fl_str_mv |
Florianópolis, SC. |
publisher.none.fl_str_mv |
Florianópolis, SC. |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSC instname:Universidade Federal de Santa Catarina (UFSC) instacron:UFSC |
instname_str |
Universidade Federal de Santa Catarina (UFSC) |
instacron_str |
UFSC |
institution |
UFSC |
reponame_str |
Repositório Institucional da UFSC |
collection |
Repositório Institucional da UFSC |
bitstream.url.fl_str_mv |
https://repositorio.ufsc.br/bitstream/123456789/237991/2/license.txt https://repositorio.ufsc.br/bitstream/123456789/237991/1/TCC.pdf |
bitstream.checksum.fl_str_mv |
11ee89cd31d893362820eab7c4d46734 3815715dc5d98cab315bfc6b6cd77f57 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC) |
repository.mail.fl_str_mv |
|
_version_ |
1766805150703288320 |