Extração estruturada de dados em fontes heterogêneas com Web Crawlers
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UNESC |
Texto Completo: | http://repositorio.unesc.net/handle/1/8138 |
Resumo: | Trabalho de Conclusão de Curso, apresentado para obtenção do grau de Bacharel no Curso de Ciência da Computação da Universidade do Extremo Sul Catarinense, UNESC. |
id |
UNESC-1_f925a4e7d438914c9f2fbc450a1157d7 |
---|---|
oai_identifier_str |
oai:repositorio.unesc.net:1/8138 |
network_acronym_str |
UNESC-1 |
network_name_str |
Repositório Institucional da UNESC |
repository_id_str |
|
spelling |
Fabro, GustavoSilva, Gilberto Vieira daUniversidade do Extremo Sul Catarinense2021-05-04T22:07:10Z2021-05-04T22:07:10Z2018-07http://repositorio.unesc.net/handle/1/8138Trabalho de Conclusão de Curso, apresentado para obtenção do grau de Bacharel no Curso de Ciência da Computação da Universidade do Extremo Sul Catarinense, UNESC.Com crescimento de dados na web torna-se cada vez maior a necessidade de ferramentas que auxiliam no consumo dessas informações. Dentre as categorias desses dados estão as fontes de notícias, em que há um grande número de portais disponíveis e no qual um determinado assunto pode ser tratado por diferentes sites. Com isso, o objetivo deste trabalho foi determinar formas de extração estruturada desses dados ao mesmo tempo em que as fontes são adquiridas automaticamente de acordo o assunto desejado. Tanto para a extração da notícia como para as suas respectivas fontes, fez-se o uso de web crawlers, um agente que realiza a coleta e o parser de dados na web. A extração estruturada das fontes, previamente desconhecidas, foi possível através da leitura das novas tags semânticas do HTML5 e de metadados que são utilizados para o compartilhamento de artigos em redes sociais. Ambos, quando utilizados da forma correta, se mostraram eficientes na indicação das partes do documento, sendo portanto um meio comum de definir a informação. Já a obtenção das sementes do rastreador foi realizada através de requisições ao motor de busca do Google. Por fim foi possível identificar padrões semânticos de representação dos dados nas tecnologias envolvidas no desenvolvimento web, possibilitando distribuí-los de formas suscetíveis ao processamento automático.Web CrawlerRequisições webWeb semânticaExtração estruturada de dados em fontes heterogêneas com Web Crawlersinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporreponame:Repositório Institucional da UNESCinstname:Universidade do Extremo Sul Catarinense (Unesc)instacron:UNESCinfo:eu-repo/semantics/openAccessORIGINALGUSTAVO FABRO.pdfGUSTAVO FABRO.pdfTCCapplication/pdf13058493http://repositorio.unesc.net/bitstream/1/8138/1/GUSTAVO%20FABRO.pdf11c706ed1fd7af63ed1526552911e917MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.unesc.net/bitstream/1/8138/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD521/81382021-05-04 19:07:14.368oai:repositorio.unesc.net:1/8138Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttp://repositorio.unesc.net/oai/requestrepositorio@unesc.net.opendoar:2024-07-23T15:44:46.290008Repositório Institucional da UNESC - Universidade do Extremo Sul Catarinense (Unesc)false |
dc.title.pt_BR.fl_str_mv |
Extração estruturada de dados em fontes heterogêneas com Web Crawlers |
title |
Extração estruturada de dados em fontes heterogêneas com Web Crawlers |
spellingShingle |
Extração estruturada de dados em fontes heterogêneas com Web Crawlers Fabro, Gustavo Web Crawler Requisições web Web semântica |
title_short |
Extração estruturada de dados em fontes heterogêneas com Web Crawlers |
title_full |
Extração estruturada de dados em fontes heterogêneas com Web Crawlers |
title_fullStr |
Extração estruturada de dados em fontes heterogêneas com Web Crawlers |
title_full_unstemmed |
Extração estruturada de dados em fontes heterogêneas com Web Crawlers |
title_sort |
Extração estruturada de dados em fontes heterogêneas com Web Crawlers |
author |
Fabro, Gustavo |
author_facet |
Fabro, Gustavo |
author_role |
author |
dc.contributor.author.fl_str_mv |
Fabro, Gustavo |
dc.contributor.advisor1.fl_str_mv |
Silva, Gilberto Vieira da |
contributor_str_mv |
Silva, Gilberto Vieira da |
dc.subject.por.fl_str_mv |
Web Crawler Requisições web Web semântica |
topic |
Web Crawler Requisições web Web semântica |
description |
Trabalho de Conclusão de Curso, apresentado para obtenção do grau de Bacharel no Curso de Ciência da Computação da Universidade do Extremo Sul Catarinense, UNESC. |
publishDate |
2018 |
dc.date.created.fl_str_mv |
2018-07 |
dc.date.accessioned.fl_str_mv |
2021-05-04T22:07:10Z |
dc.date.available.fl_str_mv |
2021-05-04T22:07:10Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://repositorio.unesc.net/handle/1/8138 |
url |
http://repositorio.unesc.net/handle/1/8138 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.coverage.spatial.pt_BR.fl_str_mv |
Universidade do Extremo Sul Catarinense |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNESC instname:Universidade do Extremo Sul Catarinense (Unesc) instacron:UNESC |
instname_str |
Universidade do Extremo Sul Catarinense (Unesc) |
instacron_str |
UNESC |
institution |
UNESC |
reponame_str |
Repositório Institucional da UNESC |
collection |
Repositório Institucional da UNESC |
bitstream.url.fl_str_mv |
http://repositorio.unesc.net/bitstream/1/8138/1/GUSTAVO%20FABRO.pdf http://repositorio.unesc.net/bitstream/1/8138/2/license.txt |
bitstream.checksum.fl_str_mv |
11c706ed1fd7af63ed1526552911e917 8a4605be74aa9ea9d79846c1fba20a33 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UNESC - Universidade do Extremo Sul Catarinense (Unesc) |
repository.mail.fl_str_mv |
repositorio@unesc.net. |
_version_ |
1805673304111972352 |