Extração estruturada de dados em fontes heterogêneas com Web Crawlers

Detalhes bibliográficos
Autor(a) principal: Fabro, Gustavo
Data de Publicação: 2018
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UNESC
Texto Completo: http://repositorio.unesc.net/handle/1/8138
Resumo: Trabalho de Conclusão de Curso, apresentado para obtenção do grau de Bacharel no Curso de Ciência da Computação da Universidade do Extremo Sul Catarinense, UNESC.
id UNESC-1_f925a4e7d438914c9f2fbc450a1157d7
oai_identifier_str oai:repositorio.unesc.net:1/8138
network_acronym_str UNESC-1
network_name_str Repositório Institucional da UNESC
repository_id_str
spelling Fabro, GustavoSilva, Gilberto Vieira daUniversidade do Extremo Sul Catarinense2021-05-04T22:07:10Z2021-05-04T22:07:10Z2018-07http://repositorio.unesc.net/handle/1/8138Trabalho de Conclusão de Curso, apresentado para obtenção do grau de Bacharel no Curso de Ciência da Computação da Universidade do Extremo Sul Catarinense, UNESC.Com crescimento de dados na web torna-se cada vez maior a necessidade de ferramentas que auxiliam no consumo dessas informações. Dentre as categorias desses dados estão as fontes de notícias, em que há um grande número de portais disponíveis e no qual um determinado assunto pode ser tratado por diferentes sites. Com isso, o objetivo deste trabalho foi determinar formas de extração estruturada desses dados ao mesmo tempo em que as fontes são adquiridas automaticamente de acordo o assunto desejado. Tanto para a extração da notícia como para as suas respectivas fontes, fez-se o uso de web crawlers, um agente que realiza a coleta e o parser de dados na web. A extração estruturada das fontes, previamente desconhecidas, foi possível através da leitura das novas tags semânticas do HTML5 e de metadados que são utilizados para o compartilhamento de artigos em redes sociais. Ambos, quando utilizados da forma correta, se mostraram eficientes na indicação das partes do documento, sendo portanto um meio comum de definir a informação. Já a obtenção das sementes do rastreador foi realizada através de requisições ao motor de busca do Google. Por fim foi possível identificar padrões semânticos de representação dos dados nas tecnologias envolvidas no desenvolvimento web, possibilitando distribuí-los de formas suscetíveis ao processamento automático.Web CrawlerRequisições webWeb semânticaExtração estruturada de dados em fontes heterogêneas com Web Crawlersinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporreponame:Repositório Institucional da UNESCinstname:Universidade do Extremo Sul Catarinense (Unesc)instacron:UNESCinfo:eu-repo/semantics/openAccessORIGINALGUSTAVO FABRO.pdfGUSTAVO FABRO.pdfTCCapplication/pdf13058493http://repositorio.unesc.net/bitstream/1/8138/1/GUSTAVO%20FABRO.pdf11c706ed1fd7af63ed1526552911e917MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.unesc.net/bitstream/1/8138/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD521/81382021-05-04 19:07:14.368oai:repositorio.unesc.net:1/8138Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttp://repositorio.unesc.net/oai/requestrepositorio@unesc.net.opendoar:2024-07-23T15:44:46.290008Repositório Institucional da UNESC - Universidade do Extremo Sul Catarinense (Unesc)false
dc.title.pt_BR.fl_str_mv Extração estruturada de dados em fontes heterogêneas com Web Crawlers
title Extração estruturada de dados em fontes heterogêneas com Web Crawlers
spellingShingle Extração estruturada de dados em fontes heterogêneas com Web Crawlers
Fabro, Gustavo
Web Crawler
Requisições web
Web semântica
title_short Extração estruturada de dados em fontes heterogêneas com Web Crawlers
title_full Extração estruturada de dados em fontes heterogêneas com Web Crawlers
title_fullStr Extração estruturada de dados em fontes heterogêneas com Web Crawlers
title_full_unstemmed Extração estruturada de dados em fontes heterogêneas com Web Crawlers
title_sort Extração estruturada de dados em fontes heterogêneas com Web Crawlers
author Fabro, Gustavo
author_facet Fabro, Gustavo
author_role author
dc.contributor.author.fl_str_mv Fabro, Gustavo
dc.contributor.advisor1.fl_str_mv Silva, Gilberto Vieira da
contributor_str_mv Silva, Gilberto Vieira da
dc.subject.por.fl_str_mv Web Crawler
Requisições web
Web semântica
topic Web Crawler
Requisições web
Web semântica
description Trabalho de Conclusão de Curso, apresentado para obtenção do grau de Bacharel no Curso de Ciência da Computação da Universidade do Extremo Sul Catarinense, UNESC.
publishDate 2018
dc.date.created.fl_str_mv 2018-07
dc.date.accessioned.fl_str_mv 2021-05-04T22:07:10Z
dc.date.available.fl_str_mv 2021-05-04T22:07:10Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://repositorio.unesc.net/handle/1/8138
url http://repositorio.unesc.net/handle/1/8138
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.coverage.spatial.pt_BR.fl_str_mv Universidade do Extremo Sul Catarinense
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESC
instname:Universidade do Extremo Sul Catarinense (Unesc)
instacron:UNESC
instname_str Universidade do Extremo Sul Catarinense (Unesc)
instacron_str UNESC
institution UNESC
reponame_str Repositório Institucional da UNESC
collection Repositório Institucional da UNESC
bitstream.url.fl_str_mv http://repositorio.unesc.net/bitstream/1/8138/1/GUSTAVO%20FABRO.pdf
http://repositorio.unesc.net/bitstream/1/8138/2/license.txt
bitstream.checksum.fl_str_mv 11c706ed1fd7af63ed1526552911e917
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UNESC - Universidade do Extremo Sul Catarinense (Unesc)
repository.mail.fl_str_mv repositorio@unesc.net.
_version_ 1805673304111972352