Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSC |
Texto Completo: | https://repositorio.ufsc.br/xmlui/handle/123456789/129142 |
Resumo: | Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014 |
id |
UFSC_d84d50d950aedc8263b181ac36af034f |
---|---|
oai_identifier_str |
oai:repositorio.ufsc.br:123456789/129142 |
network_acronym_str |
UFSC |
network_name_str |
Repositório Institucional da UFSC |
repository_id_str |
2373 |
spelling |
Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag pathsComputaçãoSites da WebRuídoMineração de dados (Computação)Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014Segmentação e remoção de ruído de páginas web são etapas essenciais no processo de extração de dados estruturados. Identificar a região principal da página, eliminando o que não é importante (menus, anúncios,etc.), pode melhorar significativamente o desempenho do processo de extração. Para essa tarefa e proposto um novo algoritmo, totalmente automático, que utiliza uma sequência de tag paths (TPS) como representação da página web. A TPS é composta por uma sequência de símbolos (string), cada um representando um tag path diferente. O algoritmo proposto procura por posições na TPS onde é possível dividi-la em duas regiões de tal forma que seus alfabetos não se intersectem, o que significa que as regiões têm conjuntos de tag paths completamente distintos e, portanto, são regiões diferentes da página. Os resultados mostram que o algoritmo é muito efetivo em identificar o conteúdo principal de vários sites, e melhora a precisão da extração, removendo resultados irrelevantes.<br>Abstract: Web page segmentation and data cleaning are essential steps in structured web data extraction. Identifying a web page main content region, removing what is not important (menus, ads, etc.), can greatly improve the performance of the extraction process. We propose, for this task, a novel and fully automatic algorithm that uses a tag path sequence (TPS) representation of the web page. The TPS consists of a sequence of symbols (string), each one representing a diferent tag path. The proposed technique searches for positions in the TPS where it is possible to split it in two regions where each region's alphabet do not intersect, which means that they have completely dierent sets of tag paths and, thus, are diferent regions. The results show that the algorithm is very effective in identifying the main content block of several major web sites, and improves the precision of the extraction step by removing irrelevant results.Dorneles, Carina FriedrichUniversidade Federal de Santa CatarinaVelloso, Roberto Panerai2015-02-05T20:44:43Z2015-02-05T20:44:43Z2014info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis65 p.| il., grafs.application/pdf329914https://repositorio.ufsc.br/xmlui/handle/123456789/129142porreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccess2015-02-05T20:44:43Zoai:repositorio.ufsc.br:123456789/129142Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732015-02-05T20:44:43Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false |
dc.title.none.fl_str_mv |
Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths |
title |
Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths |
spellingShingle |
Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths Velloso, Roberto Panerai Computação Sites da Web Ruído Mineração de dados (Computação) |
title_short |
Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths |
title_full |
Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths |
title_fullStr |
Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths |
title_full_unstemmed |
Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths |
title_sort |
Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths |
author |
Velloso, Roberto Panerai |
author_facet |
Velloso, Roberto Panerai |
author_role |
author |
dc.contributor.none.fl_str_mv |
Dorneles, Carina Friedrich Universidade Federal de Santa Catarina |
dc.contributor.author.fl_str_mv |
Velloso, Roberto Panerai |
dc.subject.por.fl_str_mv |
Computação Sites da Web Ruído Mineração de dados (Computação) |
topic |
Computação Sites da Web Ruído Mineração de dados (Computação) |
description |
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014 |
publishDate |
2014 |
dc.date.none.fl_str_mv |
2014 2015-02-05T20:44:43Z 2015-02-05T20:44:43Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
329914 https://repositorio.ufsc.br/xmlui/handle/123456789/129142 |
identifier_str_mv |
329914 |
url |
https://repositorio.ufsc.br/xmlui/handle/123456789/129142 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
65 p.| il., grafs. application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSC instname:Universidade Federal de Santa Catarina (UFSC) instacron:UFSC |
instname_str |
Universidade Federal de Santa Catarina (UFSC) |
instacron_str |
UFSC |
institution |
UFSC |
reponame_str |
Repositório Institucional da UFSC |
collection |
Repositório Institucional da UFSC |
repository.name.fl_str_mv |
Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC) |
repository.mail.fl_str_mv |
|
_version_ |
1808652132651368448 |