Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths

Detalhes bibliográficos
Autor(a) principal: Velloso, Roberto Panerai
Data de Publicação: 2014
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/xmlui/handle/123456789/129142
Resumo: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014
id UFSC_d84d50d950aedc8263b181ac36af034f
oai_identifier_str oai:repositorio.ufsc.br:123456789/129142
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag pathsComputaçãoSites da WebRuídoMineração de dados (Computação)Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014Segmentação e remoção de ruído de páginas web são etapas essenciais no processo de extração de dados estruturados. Identificar a região principal da página, eliminando o que não é importante (menus, anúncios,etc.), pode melhorar significativamente o desempenho do processo de extração. Para essa tarefa e proposto um novo algoritmo, totalmente automático, que utiliza uma sequência de tag paths (TPS) como representação da página web. A TPS é composta por uma sequência de símbolos (string), cada um representando um tag path diferente. O algoritmo proposto procura por posições na TPS onde é possível dividi-la em duas regiões de tal forma que seus alfabetos não se intersectem, o que significa que as regiões têm conjuntos de tag paths completamente distintos e, portanto, são regiões diferentes da página. Os resultados mostram que o algoritmo é muito efetivo em identificar o conteúdo principal de vários sites, e melhora a precisão da extração, removendo resultados irrelevantes.<br>Abstract: Web page segmentation and data cleaning are essential steps in structured web data extraction. Identifying a web page main content region, removing what is not important (menus, ads, etc.), can greatly improve the performance of the extraction process. We propose, for this task, a novel and fully automatic algorithm that uses a tag path sequence (TPS) representation of the web page. The TPS consists of a sequence of symbols (string), each one representing a diferent tag path. The proposed technique searches for positions in the TPS where it is possible to split it in two regions where each region's alphabet do not intersect, which means that they have completely dierent sets of tag paths and, thus, are diferent regions. The results show that the algorithm is very effective in identifying the main content block of several major web sites, and improves the precision of the extraction step by removing irrelevant results.Dorneles, Carina FriedrichUniversidade Federal de Santa CatarinaVelloso, Roberto Panerai2015-02-05T20:44:43Z2015-02-05T20:44:43Z2014info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis65 p.| il., grafs.application/pdf329914https://repositorio.ufsc.br/xmlui/handle/123456789/129142porreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccess2015-02-05T20:44:43Zoai:repositorio.ufsc.br:123456789/129142Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732015-02-05T20:44:43Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths
title Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths
spellingShingle Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths
Velloso, Roberto Panerai
Computação
Sites da Web
Ruído
Mineração de dados (Computação)
title_short Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths
title_full Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths
title_fullStr Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths
title_full_unstemmed Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths
title_sort Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths
author Velloso, Roberto Panerai
author_facet Velloso, Roberto Panerai
author_role author
dc.contributor.none.fl_str_mv Dorneles, Carina Friedrich
Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Velloso, Roberto Panerai
dc.subject.por.fl_str_mv Computação
Sites da Web
Ruído
Mineração de dados (Computação)
topic Computação
Sites da Web
Ruído
Mineração de dados (Computação)
description Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014
publishDate 2014
dc.date.none.fl_str_mv 2014
2015-02-05T20:44:43Z
2015-02-05T20:44:43Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv 329914
https://repositorio.ufsc.br/xmlui/handle/123456789/129142
identifier_str_mv 329914
url https://repositorio.ufsc.br/xmlui/handle/123456789/129142
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 65 p.| il., grafs.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1808652132651368448