Fave: uma proposta para verificação de extratores de dados de páginas html

Detalhes bibliográficos
Autor(a) principal: Silva, João Miguel Gehlen da
Data de Publicação: 2018
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFFS (Repositório Digital da UFFS)
Texto Completo: https://rd.uffs.edu.br/handle/prefix/2104
Resumo: O constante crescimento de serviços online, por exemplo, comparação de preços e produtos, agregadores de conteúdos, entre outros, impulsiona a demanda por soluções para a extração de dados. Para que informações oriundas internet possam ser comparadas ou agrupadas, é necessário extrair os dados relevantes das páginas web em um formato estruturado. As técnicas que providenciam a extração de dados são conhecidas como wrappers. Cada wrapper é desenvolvido usando como base a página HTML e produz um conjunto de informações estruturadas. Porém quando uma página HTML é modificada, o wrapper para de funcionar ou funciona de maneira incorreta. Atualmente já existem diversos estudos para fazer o ajuste automático do sistema de extração de dados, procedimento conhecido como wrapper maintenance. Este trabalho apresenta algumas técnicas de wrapper maintenance e propõe uma melhoria no método de automação de extratores tomando como base as técnicas apresentadas.
id UFFS_d7ad796391309d42d3bfe6a5ca69c7c1
oai_identifier_str oai:rd.uffs.edu.br:prefix/2104
network_acronym_str UFFS
network_name_str Repositório Institucional da UFFS (Repositório Digital da UFFS)
repository_id_str 3924
spelling Dal Bianco, GuilhermeSilva, João Miguel Gehlen da20182018-08-30T19:32:07Z2018-08-30T19:32:07Z2018-07-03https://rd.uffs.edu.br/handle/prefix/2104O constante crescimento de serviços online, por exemplo, comparação de preços e produtos, agregadores de conteúdos, entre outros, impulsiona a demanda por soluções para a extração de dados. Para que informações oriundas internet possam ser comparadas ou agrupadas, é necessário extrair os dados relevantes das páginas web em um formato estruturado. As técnicas que providenciam a extração de dados são conhecidas como wrappers. Cada wrapper é desenvolvido usando como base a página HTML e produz um conjunto de informações estruturadas. Porém quando uma página HTML é modificada, o wrapper para de funcionar ou funciona de maneira incorreta. Atualmente já existem diversos estudos para fazer o ajuste automático do sistema de extração de dados, procedimento conhecido como wrapper maintenance. Este trabalho apresenta algumas técnicas de wrapper maintenance e propõe uma melhoria no método de automação de extratores tomando como base as técnicas apresentadas.The constant growth of online services, for example, price and product comparison, content aggregators, among others, drives the demand for solutions for data extraction. In order for information from the Internet to be compared or grouped, it is first necessary to extract relevant data from web pages in a structured format. The techniques that provide data extraction are known as wrappers. Each wrapper is developed based on the HTML page and produces a set of structured information. But when an HTML page is modified, wrapper may stop working or works incorrectly. Currently there are several studies to perform the automatic adjustment of the data extraction system, procedure known as wrapper maintenance. This work presents some techniques of wrapper maintenance and proposes an improvement in the method of extractor automation based on the presented techniques.Submitted by ADAIR PERDOMO FALCÃO (adair.falcao@uffs.edu.br) on 2018-08-29T18:00:26Z No. of bitstreams: 1 SILVA, João.pdf: 3030847 bytes, checksum: 4176207d246b14c6a7a8e9a8df610dba (MD5)Approved for entry into archive by Diego dos Santos Borba (dborba@uffs.edu.br) on 2018-08-30T19:32:07Z (GMT) No. of bitstreams: 1 SILVA, João.pdf: 3030847 bytes, checksum: 4176207d246b14c6a7a8e9a8df610dba (MD5)Made available in DSpace on 2018-08-30T19:32:07Z (GMT). No. of bitstreams: 1 SILVA, João.pdf: 3030847 bytes, checksum: 4176207d246b14c6a7a8e9a8df610dba (MD5) Previous issue date: 2018-07-03porUniversidade Federal da Fronteira SulUFFSBrasilCampus ChapecóExtração de dadosExtração webManutenção de wrappersVerificação de wrappersWrapperFave: uma proposta para verificação de extratores de dados de páginas htmlinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFFS (Repositório Digital da UFFS)instname:Universidade Federal Fronteira do Sul (UFFS)instacron:UFFSLICENSElicense.txtlicense.txttext/plain; charset=utf-81866https://rd.uffs.edu.br:8443/bitstream/prefix/2104/2/license.txt43cd690d6a359e86c1fe3d5b7cba0c9bMD52ORIGINALSILVA, João.pdfSILVA, João.pdfapplication/pdf3030847https://rd.uffs.edu.br:8443/bitstream/prefix/2104/1/SILVA%2C+Jo%C3%A3o.pdf4176207d246b14c6a7a8e9a8df610dbaMD51prefix/21042020-02-03 13:11:10.128oai:rd.uffs.edu.br:prefix/2104TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIApJbnN0aXR1Y2lvbmFsIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCAgdHJhZHV6aXIgKGNvbmZvcm1lIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBhIApzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIApmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIG8gRGVwb3NpdGEgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byAKcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIERlcG9zaXRhIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZSBzdWEgcHVibGljYcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIAplIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSBwdWJsaWNhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIApWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgCmRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSBwdWJsaWNhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgCm9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciBhbyBEZXBvc2l0YSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgCm5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIApvdSBubyBjb250ZcO6ZG8gZGEgcHVibGljYcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0HDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSBBUE9JTyBERSBVTUEgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyAKT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgCkVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpPIERlcG9zaXRhIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUgKHMpIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIAphdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório InstitucionalPUBhttps://rd.uffs.edu.br/oai/requestopendoar:39242020-02-03T15:11:10Repositório Institucional da UFFS (Repositório Digital da UFFS) - Universidade Federal Fronteira do Sul (UFFS)false
dc.title.pt_BR.fl_str_mv Fave: uma proposta para verificação de extratores de dados de páginas html
title Fave: uma proposta para verificação de extratores de dados de páginas html
spellingShingle Fave: uma proposta para verificação de extratores de dados de páginas html
Silva, João Miguel Gehlen da
Extração de dados
Extração web
Manutenção de wrappers
Verificação de wrappers
Wrapper
title_short Fave: uma proposta para verificação de extratores de dados de páginas html
title_full Fave: uma proposta para verificação de extratores de dados de páginas html
title_fullStr Fave: uma proposta para verificação de extratores de dados de páginas html
title_full_unstemmed Fave: uma proposta para verificação de extratores de dados de páginas html
title_sort Fave: uma proposta para verificação de extratores de dados de páginas html
author Silva, João Miguel Gehlen da
author_facet Silva, João Miguel Gehlen da
author_role author
dc.contributor.advisor1.fl_str_mv Dal Bianco, Guilherme
dc.contributor.author.fl_str_mv Silva, João Miguel Gehlen da
contributor_str_mv Dal Bianco, Guilherme
dc.subject.por.fl_str_mv Extração de dados
Extração web
Manutenção de wrappers
Verificação de wrappers
Wrapper
topic Extração de dados
Extração web
Manutenção de wrappers
Verificação de wrappers
Wrapper
description O constante crescimento de serviços online, por exemplo, comparação de preços e produtos, agregadores de conteúdos, entre outros, impulsiona a demanda por soluções para a extração de dados. Para que informações oriundas internet possam ser comparadas ou agrupadas, é necessário extrair os dados relevantes das páginas web em um formato estruturado. As técnicas que providenciam a extração de dados são conhecidas como wrappers. Cada wrapper é desenvolvido usando como base a página HTML e produz um conjunto de informações estruturadas. Porém quando uma página HTML é modificada, o wrapper para de funcionar ou funciona de maneira incorreta. Atualmente já existem diversos estudos para fazer o ajuste automático do sistema de extração de dados, procedimento conhecido como wrapper maintenance. Este trabalho apresenta algumas técnicas de wrapper maintenance e propõe uma melhoria no método de automação de extratores tomando como base as técnicas apresentadas.
publishDate 2018
dc.date.none.fl_str_mv 2018
dc.date.accessioned.fl_str_mv 2018-08-30T19:32:07Z
dc.date.available.fl_str_mv 2018-08-30T19:32:07Z
dc.date.issued.fl_str_mv 2018-07-03
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://rd.uffs.edu.br/handle/prefix/2104
url https://rd.uffs.edu.br/handle/prefix/2104
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal da Fronteira Sul
dc.publisher.initials.fl_str_mv UFFS
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Campus Chapecó
publisher.none.fl_str_mv Universidade Federal da Fronteira Sul
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFFS (Repositório Digital da UFFS)
instname:Universidade Federal Fronteira do Sul (UFFS)
instacron:UFFS
instname_str Universidade Federal Fronteira do Sul (UFFS)
instacron_str UFFS
institution UFFS
reponame_str Repositório Institucional da UFFS (Repositório Digital da UFFS)
collection Repositório Institucional da UFFS (Repositório Digital da UFFS)
bitstream.url.fl_str_mv https://rd.uffs.edu.br:8443/bitstream/prefix/2104/2/license.txt
https://rd.uffs.edu.br:8443/bitstream/prefix/2104/1/SILVA%2C+Jo%C3%A3o.pdf
bitstream.checksum.fl_str_mv 43cd690d6a359e86c1fe3d5b7cba0c9b
4176207d246b14c6a7a8e9a8df610dba
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFFS (Repositório Digital da UFFS) - Universidade Federal Fronteira do Sul (UFFS)
repository.mail.fl_str_mv
_version_ 1809094604975243264