Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada

Lutz, João Adolfo Froede

Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada

Detalhes bibliográficos
Autor(a) principal:	Lutz, João Adolfo Froede
Data de Publicação:	2013
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/94625
Resumo:	Um dos problemas da extração de dados na web é a remoção de ruído existente nas páginas. Esta tarefa busca identificar todos os elementos não informativos em meio ao conteúdo, como por exemplo cabeçalhos, menus ou propagandas. A presença de ruído pode prejudicar seriamente o desempenho de motores de busca e tarefas de mineração de dados na web. Este trabalho aborda o problema da descoberta de ruído em páginas da web oculta, a parte da web que é acessível apenas através do preenchimento de formulários. No processamento da web oculta, a extração de dados geralmente é precedida por uma etapa de inserção de dados, na qual os formulários que dão acesso às páginas ocultas são automaticamente ou semi-automaticamente preenchidos. Durante esta fase, são coleta- dos dados do domínio em questão, como os rótulos e valores dos campos. A proposta deste trabalho é agregar este tipo de dados com informações sintáticas dos elementos que compõem a página. É mostrado empiricamente que esta combinação atinge resultados melhores que uma abordagem baseada apenas em informações sintáticas.

Metadados do item

id	URGS_e757e19c05464bff73246fe240579731
oai_identifier_str	oai:www.lume.ufrgs.br:10183/94625
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Lutz, João Adolfo FroedeHeuser, Carlos Alberto2014-04-23T01:51:11Z2013http://hdl.handle.net/10183/94625000916274Um dos problemas da extração de dados na web é a remoção de ruído existente nas páginas. Esta tarefa busca identificar todos os elementos não informativos em meio ao conteúdo, como por exemplo cabeçalhos, menus ou propagandas. A presença de ruído pode prejudicar seriamente o desempenho de motores de busca e tarefas de mineração de dados na web. Este trabalho aborda o problema da descoberta de ruído em páginas da web oculta, a parte da web que é acessível apenas através do preenchimento de formulários. No processamento da web oculta, a extração de dados geralmente é precedida por uma etapa de inserção de dados, na qual os formulários que dão acesso às páginas ocultas são automaticamente ou semi-automaticamente preenchidos. Durante esta fase, são coleta- dos dados do domínio em questão, como os rótulos e valores dos campos. A proposta deste trabalho é agregar este tipo de dados com informações sintáticas dos elementos que compõem a página. É mostrado empiricamente que esta combinação atinge resultados melhores que uma abordagem baseada apenas em informações sintáticas.One of the problems of data extraction from web pages is the identification of noise in pages. This task aims at identifying non-informative elements in pages, such as headers, menus, or advertisement. The presence of noise may hinder the performance of search engines and web mining tasks. In this paper we tackle the problem of discovering noise in web pages found in the hidden web, i.e., that part of the web that is only accessible by filling web forms. In hidden web processing, data extraction is usually preceeded by a form filling step, in which the query forms that give access to the hidden web pages are automatically or semi-automatically filled. During form filling relevant data about the queried domain are collected, as field names and field values. Our proposal combines this type of data with syntactic information about the nodes that compose the page. We show empirically that this combination achieves better results than an approach that is based solely on syntactic information. Keywords:application/pdfporRecuperacao : InformacaoWeb : DesenvolvimentoHidden webInformation retrievalWeb data extractionWeb noise removalDescoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionadaA supervised learning approach for noise discovery in web pages found in the hidden web info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2013mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000916274.pdf000916274.pdfTexto completoapplication/pdf2849623http://www.lume.ufrgs.br/bitstream/10183/94625/1/000916274.pdf4a2f6c9bd05def0a607a90f43b3d5121MD51TEXT000916274.pdf.txt000916274.pdf.txtExtracted Texttext/plain115701http://www.lume.ufrgs.br/bitstream/10183/94625/2/000916274.pdf.txt9e40039699a593ed0394cf1d91b70a55MD52THUMBNAIL000916274.pdf.jpg000916274.pdf.jpgGenerated Thumbnailimage/jpeg1008http://www.lume.ufrgs.br/bitstream/10183/94625/3/000916274.pdf.jpg6d4b9eaa92212d58580d2a33d998e32dMD5310183/946252018-10-05 08:36:13.418oai:www.lume.ufrgs.br:10183/94625Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532018-10-05T11:36:13Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada
dc.title.alternative.en.fl_str_mv	A supervised learning approach for noise discovery in web pages found in the hidden web
title	Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada
spellingShingle	Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada Lutz, João Adolfo Froede Recuperacao : Informacao Web : Desenvolvimento Hidden web Information retrieval Web data extraction Web noise removal
title_short	Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada
title_full	Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada
title_fullStr	Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada
title_full_unstemmed	Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada
title_sort	Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada
author	Lutz, João Adolfo Froede
author_facet	Lutz, João Adolfo Froede
author_role	author
dc.contributor.author.fl_str_mv	Lutz, João Adolfo Froede
dc.contributor.advisor1.fl_str_mv	Heuser, Carlos Alberto
contributor_str_mv	Heuser, Carlos Alberto
dc.subject.por.fl_str_mv	Recuperacao : Informacao Web : Desenvolvimento
topic	Recuperacao : Informacao Web : Desenvolvimento Hidden web Information retrieval Web data extraction Web noise removal
dc.subject.eng.fl_str_mv	Hidden web Information retrieval Web data extraction Web noise removal
description	Um dos problemas da extração de dados na web é a remoção de ruído existente nas páginas. Esta tarefa busca identificar todos os elementos não informativos em meio ao conteúdo, como por exemplo cabeçalhos, menus ou propagandas. A presença de ruído pode prejudicar seriamente o desempenho de motores de busca e tarefas de mineração de dados na web. Este trabalho aborda o problema da descoberta de ruído em páginas da web oculta, a parte da web que é acessível apenas através do preenchimento de formulários. No processamento da web oculta, a extração de dados geralmente é precedida por uma etapa de inserção de dados, na qual os formulários que dão acesso às páginas ocultas são automaticamente ou semi-automaticamente preenchidos. Durante esta fase, são coleta- dos dados do domínio em questão, como os rótulos e valores dos campos. A proposta deste trabalho é agregar este tipo de dados com informações sintáticas dos elementos que compõem a página. É mostrado empiricamente que esta combinação atinge resultados melhores que uma abordagem baseada apenas em informações sintáticas.
publishDate	2013
dc.date.issued.fl_str_mv	2013
dc.date.accessioned.fl_str_mv	2014-04-23T01:51:11Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/94625
dc.identifier.nrb.pt_BR.fl_str_mv	000916274
url	http://hdl.handle.net/10183/94625
identifier_str_mv	000916274
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/94625/1/000916274.pdf http://www.lume.ufrgs.br/bitstream/10183/94625/2/000916274.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/94625/3/000916274.pdf.jpg
bitstream.checksum.fl_str_mv	4a2f6c9bd05def0a607a90f43b3d5121 9e40039699a593ed0394cf1d91b70a55 6d4b9eaa92212d58580d2a33d998e32d
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1810085283911172096

Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada

Registros relacionados