Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada
Autor(a) principal: | |
---|---|
Data de Publicação: | 2013 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/94625 |
Resumo: | Um dos problemas da extração de dados na web é a remoção de ruído existente nas páginas. Esta tarefa busca identificar todos os elementos não informativos em meio ao conteúdo, como por exemplo cabeçalhos, menus ou propagandas. A presença de ruído pode prejudicar seriamente o desempenho de motores de busca e tarefas de mineração de dados na web. Este trabalho aborda o problema da descoberta de ruído em páginas da web oculta, a parte da web que é acessível apenas através do preenchimento de formulários. No processamento da web oculta, a extração de dados geralmente é precedida por uma etapa de inserção de dados, na qual os formulários que dão acesso às páginas ocultas são automaticamente ou semi-automaticamente preenchidos. Durante esta fase, são coleta- dos dados do domínio em questão, como os rótulos e valores dos campos. A proposta deste trabalho é agregar este tipo de dados com informações sintáticas dos elementos que compõem a página. É mostrado empiricamente que esta combinação atinge resultados melhores que uma abordagem baseada apenas em informações sintáticas. |
id |
URGS_e757e19c05464bff73246fe240579731 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/94625 |
network_acronym_str |
URGS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
repository_id_str |
1853 |
spelling |
Lutz, João Adolfo FroedeHeuser, Carlos Alberto2014-04-23T01:51:11Z2013http://hdl.handle.net/10183/94625000916274Um dos problemas da extração de dados na web é a remoção de ruído existente nas páginas. Esta tarefa busca identificar todos os elementos não informativos em meio ao conteúdo, como por exemplo cabeçalhos, menus ou propagandas. A presença de ruído pode prejudicar seriamente o desempenho de motores de busca e tarefas de mineração de dados na web. Este trabalho aborda o problema da descoberta de ruído em páginas da web oculta, a parte da web que é acessível apenas através do preenchimento de formulários. No processamento da web oculta, a extração de dados geralmente é precedida por uma etapa de inserção de dados, na qual os formulários que dão acesso às páginas ocultas são automaticamente ou semi-automaticamente preenchidos. Durante esta fase, são coleta- dos dados do domínio em questão, como os rótulos e valores dos campos. A proposta deste trabalho é agregar este tipo de dados com informações sintáticas dos elementos que compõem a página. É mostrado empiricamente que esta combinação atinge resultados melhores que uma abordagem baseada apenas em informações sintáticas.One of the problems of data extraction from web pages is the identification of noise in pages. This task aims at identifying non-informative elements in pages, such as headers, menus, or advertisement. The presence of noise may hinder the performance of search engines and web mining tasks. In this paper we tackle the problem of discovering noise in web pages found in the hidden web, i.e., that part of the web that is only accessible by filling web forms. In hidden web processing, data extraction is usually preceeded by a form filling step, in which the query forms that give access to the hidden web pages are automatically or semi-automatically filled. During form filling relevant data about the queried domain are collected, as field names and field values. Our proposal combines this type of data with syntactic information about the nodes that compose the page. We show empirically that this combination achieves better results than an approach that is based solely on syntactic information. Keywords:application/pdfporRecuperacao : InformacaoWeb : DesenvolvimentoHidden webInformation retrievalWeb data extractionWeb noise removalDescoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionadaA supervised learning approach for noise discovery in web pages found in the hidden web info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2013mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000916274.pdf000916274.pdfTexto completoapplication/pdf2849623http://www.lume.ufrgs.br/bitstream/10183/94625/1/000916274.pdf4a2f6c9bd05def0a607a90f43b3d5121MD51TEXT000916274.pdf.txt000916274.pdf.txtExtracted Texttext/plain115701http://www.lume.ufrgs.br/bitstream/10183/94625/2/000916274.pdf.txt9e40039699a593ed0394cf1d91b70a55MD52THUMBNAIL000916274.pdf.jpg000916274.pdf.jpgGenerated Thumbnailimage/jpeg1008http://www.lume.ufrgs.br/bitstream/10183/94625/3/000916274.pdf.jpg6d4b9eaa92212d58580d2a33d998e32dMD5310183/946252018-10-05 08:36:13.418oai:www.lume.ufrgs.br:10183/94625Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532018-10-05T11:36:13Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada |
dc.title.alternative.en.fl_str_mv |
A supervised learning approach for noise discovery in web pages found in the hidden web |
title |
Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada |
spellingShingle |
Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada Lutz, João Adolfo Froede Recuperacao : Informacao Web : Desenvolvimento Hidden web Information retrieval Web data extraction Web noise removal |
title_short |
Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada |
title_full |
Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada |
title_fullStr |
Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada |
title_full_unstemmed |
Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada |
title_sort |
Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada |
author |
Lutz, João Adolfo Froede |
author_facet |
Lutz, João Adolfo Froede |
author_role |
author |
dc.contributor.author.fl_str_mv |
Lutz, João Adolfo Froede |
dc.contributor.advisor1.fl_str_mv |
Heuser, Carlos Alberto |
contributor_str_mv |
Heuser, Carlos Alberto |
dc.subject.por.fl_str_mv |
Recuperacao : Informacao Web : Desenvolvimento |
topic |
Recuperacao : Informacao Web : Desenvolvimento Hidden web Information retrieval Web data extraction Web noise removal |
dc.subject.eng.fl_str_mv |
Hidden web Information retrieval Web data extraction Web noise removal |
description |
Um dos problemas da extração de dados na web é a remoção de ruído existente nas páginas. Esta tarefa busca identificar todos os elementos não informativos em meio ao conteúdo, como por exemplo cabeçalhos, menus ou propagandas. A presença de ruído pode prejudicar seriamente o desempenho de motores de busca e tarefas de mineração de dados na web. Este trabalho aborda o problema da descoberta de ruído em páginas da web oculta, a parte da web que é acessível apenas através do preenchimento de formulários. No processamento da web oculta, a extração de dados geralmente é precedida por uma etapa de inserção de dados, na qual os formulários que dão acesso às páginas ocultas são automaticamente ou semi-automaticamente preenchidos. Durante esta fase, são coleta- dos dados do domínio em questão, como os rótulos e valores dos campos. A proposta deste trabalho é agregar este tipo de dados com informações sintáticas dos elementos que compõem a página. É mostrado empiricamente que esta combinação atinge resultados melhores que uma abordagem baseada apenas em informações sintáticas. |
publishDate |
2013 |
dc.date.issued.fl_str_mv |
2013 |
dc.date.accessioned.fl_str_mv |
2014-04-23T01:51:11Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/94625 |
dc.identifier.nrb.pt_BR.fl_str_mv |
000916274 |
url |
http://hdl.handle.net/10183/94625 |
identifier_str_mv |
000916274 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/94625/1/000916274.pdf http://www.lume.ufrgs.br/bitstream/10183/94625/2/000916274.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/94625/3/000916274.pdf.jpg |
bitstream.checksum.fl_str_mv |
4a2f6c9bd05def0a607a90f43b3d5121 9e40039699a593ed0394cf1d91b70a55 6d4b9eaa92212d58580d2a33d998e32d |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
_version_ |
1810085283911172096 |