Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada

Detalhes bibliográficos
Autor(a) principal: Lutz, João Adolfo Froede
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/94625
Resumo: Um dos problemas da extração de dados na web é a remoção de ruído existente nas páginas. Esta tarefa busca identificar todos os elementos não informativos em meio ao conteúdo, como por exemplo cabeçalhos, menus ou propagandas. A presença de ruído pode prejudicar seriamente o desempenho de motores de busca e tarefas de mineração de dados na web. Este trabalho aborda o problema da descoberta de ruído em páginas da web oculta, a parte da web que é acessível apenas através do preenchimento de formulários. No processamento da web oculta, a extração de dados geralmente é precedida por uma etapa de inserção de dados, na qual os formulários que dão acesso às páginas ocultas são automaticamente ou semi-automaticamente preenchidos. Durante esta fase, são coleta- dos dados do domínio em questão, como os rótulos e valores dos campos. A proposta deste trabalho é agregar este tipo de dados com informações sintáticas dos elementos que compõem a página. É mostrado empiricamente que esta combinação atinge resultados melhores que uma abordagem baseada apenas em informações sintáticas.
id URGS_e757e19c05464bff73246fe240579731
oai_identifier_str oai:www.lume.ufrgs.br:10183/94625
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Lutz, João Adolfo FroedeHeuser, Carlos Alberto2014-04-23T01:51:11Z2013http://hdl.handle.net/10183/94625000916274Um dos problemas da extração de dados na web é a remoção de ruído existente nas páginas. Esta tarefa busca identificar todos os elementos não informativos em meio ao conteúdo, como por exemplo cabeçalhos, menus ou propagandas. A presença de ruído pode prejudicar seriamente o desempenho de motores de busca e tarefas de mineração de dados na web. Este trabalho aborda o problema da descoberta de ruído em páginas da web oculta, a parte da web que é acessível apenas através do preenchimento de formulários. No processamento da web oculta, a extração de dados geralmente é precedida por uma etapa de inserção de dados, na qual os formulários que dão acesso às páginas ocultas são automaticamente ou semi-automaticamente preenchidos. Durante esta fase, são coleta- dos dados do domínio em questão, como os rótulos e valores dos campos. A proposta deste trabalho é agregar este tipo de dados com informações sintáticas dos elementos que compõem a página. É mostrado empiricamente que esta combinação atinge resultados melhores que uma abordagem baseada apenas em informações sintáticas.One of the problems of data extraction from web pages is the identification of noise in pages. This task aims at identifying non-informative elements in pages, such as headers, menus, or advertisement. The presence of noise may hinder the performance of search engines and web mining tasks. In this paper we tackle the problem of discovering noise in web pages found in the hidden web, i.e., that part of the web that is only accessible by filling web forms. In hidden web processing, data extraction is usually preceeded by a form filling step, in which the query forms that give access to the hidden web pages are automatically or semi-automatically filled. During form filling relevant data about the queried domain are collected, as field names and field values. Our proposal combines this type of data with syntactic information about the nodes that compose the page. We show empirically that this combination achieves better results than an approach that is based solely on syntactic information. Keywords:application/pdfporRecuperacao : InformacaoWeb : DesenvolvimentoHidden webInformation retrievalWeb data extractionWeb noise removalDescoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionadaA supervised learning approach for noise discovery in web pages found in the hidden web info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2013mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000916274.pdf000916274.pdfTexto completoapplication/pdf2849623http://www.lume.ufrgs.br/bitstream/10183/94625/1/000916274.pdf4a2f6c9bd05def0a607a90f43b3d5121MD51TEXT000916274.pdf.txt000916274.pdf.txtExtracted Texttext/plain115701http://www.lume.ufrgs.br/bitstream/10183/94625/2/000916274.pdf.txt9e40039699a593ed0394cf1d91b70a55MD52THUMBNAIL000916274.pdf.jpg000916274.pdf.jpgGenerated Thumbnailimage/jpeg1008http://www.lume.ufrgs.br/bitstream/10183/94625/3/000916274.pdf.jpg6d4b9eaa92212d58580d2a33d998e32dMD5310183/946252018-10-05 08:36:13.418oai:www.lume.ufrgs.br:10183/94625Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532018-10-05T11:36:13Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada
dc.title.alternative.en.fl_str_mv A supervised learning approach for noise discovery in web pages found in the hidden web
title Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada
spellingShingle Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada
Lutz, João Adolfo Froede
Recuperacao : Informacao
Web : Desenvolvimento
Hidden web
Information retrieval
Web data extraction
Web noise removal
title_short Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada
title_full Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada
title_fullStr Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada
title_full_unstemmed Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada
title_sort Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada
author Lutz, João Adolfo Froede
author_facet Lutz, João Adolfo Froede
author_role author
dc.contributor.author.fl_str_mv Lutz, João Adolfo Froede
dc.contributor.advisor1.fl_str_mv Heuser, Carlos Alberto
contributor_str_mv Heuser, Carlos Alberto
dc.subject.por.fl_str_mv Recuperacao : Informacao
Web : Desenvolvimento
topic Recuperacao : Informacao
Web : Desenvolvimento
Hidden web
Information retrieval
Web data extraction
Web noise removal
dc.subject.eng.fl_str_mv Hidden web
Information retrieval
Web data extraction
Web noise removal
description Um dos problemas da extração de dados na web é a remoção de ruído existente nas páginas. Esta tarefa busca identificar todos os elementos não informativos em meio ao conteúdo, como por exemplo cabeçalhos, menus ou propagandas. A presença de ruído pode prejudicar seriamente o desempenho de motores de busca e tarefas de mineração de dados na web. Este trabalho aborda o problema da descoberta de ruído em páginas da web oculta, a parte da web que é acessível apenas através do preenchimento de formulários. No processamento da web oculta, a extração de dados geralmente é precedida por uma etapa de inserção de dados, na qual os formulários que dão acesso às páginas ocultas são automaticamente ou semi-automaticamente preenchidos. Durante esta fase, são coleta- dos dados do domínio em questão, como os rótulos e valores dos campos. A proposta deste trabalho é agregar este tipo de dados com informações sintáticas dos elementos que compõem a página. É mostrado empiricamente que esta combinação atinge resultados melhores que uma abordagem baseada apenas em informações sintáticas.
publishDate 2013
dc.date.issued.fl_str_mv 2013
dc.date.accessioned.fl_str_mv 2014-04-23T01:51:11Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/94625
dc.identifier.nrb.pt_BR.fl_str_mv 000916274
url http://hdl.handle.net/10183/94625
identifier_str_mv 000916274
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/94625/1/000916274.pdf
http://www.lume.ufrgs.br/bitstream/10183/94625/2/000916274.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/94625/3/000916274.pdf.jpg
bitstream.checksum.fl_str_mv 4a2f6c9bd05def0a607a90f43b3d5121
9e40039699a593ed0394cf1d91b70a55
6d4b9eaa92212d58580d2a33d998e32d
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085283911172096