[en] NCE: AN ALGORITHM FOR CONTENT EXTRACTION IN NEWS PAGES
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Tipo de documento: | Outros |
Idioma: | por |
Título da fonte: | Repositório Institucional da PUC-RIO (Projeto Maxwell) |
Texto Completo: | https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=31449@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=31449@2 http://doi.org/10.17771/PUCRio.acad.31449 |
Resumo: | [pt] A extração de entidades de páginas web é comumente utilizada para melhorar a qualidade de muitas tarefas realizadas por máquinas de busca como detecção de páginas duplicadas e ranking. Essa tarefa se torna ainda mais relevante devido ao crescente volume de informação da internet com as quais as máquinas de busca precisam lidar. Existem diversos algoritmos para detecção de conteúdo na literatura, alguns orientados a sites e outros que utilizam uma abordagem mais local e são chamados de algoritmos orientados a páginas. Os algoritmos orientados a sites utilizam várias páginas de um mesmo site para criar um modelo que detecta o conteúdo relevante da página. Os algoritmos orientados a páginas detectam conteúdo avaliando as características de cada página, sem comparar com outras páginas. Neste trabalho apresentamos um algoritmo, chamado NCE ( News Content Extractor), orientado a página e que se propõe a realizar extração de entidades em páginas de notícias. Ele utiliza atributos de uma árvore DOM para localizar determinadas entidades de uma página de notícia, mais especificamente, o título e o corpo da notícia. Algumas métricas são apresentadas e utilizadas para aferir a qualidade do NCE. Quando comparado com outro método baseado em página e que utiliza atributos visuais, o NCE se mostrou superior tanto em relação à qualidade de extração quanto no que diz respeito ao tempo de execução. |
id |
PUC_RIO-1_7bf3ca823cbad64b723c6a9947a72cac |
---|---|
oai_identifier_str |
oai:MAXWELL.puc-rio.br:31449 |
network_acronym_str |
PUC_RIO-1 |
network_name_str |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
repository_id_str |
534 |
spelling |
[en] NCE: AN ALGORITHM FOR CONTENT EXTRACTION IN NEWS PAGES[pt] NCE: UM ALGORITMO PARA EXTRAÇÃO DE CONTEÚDO DE PÁGINAS DE NOTÍCIAS[pt] WEB[pt] EXTRACAO[pt] MAQUINAS DE BUSCA[pt] ARVORE[pt] ALGORITMO[en] WEB[en] EXTRACTION[en] SEARCH ENGINES[en] TREE[en] ALGORITHM[pt] A extração de entidades de páginas web é comumente utilizada para melhorar a qualidade de muitas tarefas realizadas por máquinas de busca como detecção de páginas duplicadas e ranking. Essa tarefa se torna ainda mais relevante devido ao crescente volume de informação da internet com as quais as máquinas de busca precisam lidar. Existem diversos algoritmos para detecção de conteúdo na literatura, alguns orientados a sites e outros que utilizam uma abordagem mais local e são chamados de algoritmos orientados a páginas. Os algoritmos orientados a sites utilizam várias páginas de um mesmo site para criar um modelo que detecta o conteúdo relevante da página. Os algoritmos orientados a páginas detectam conteúdo avaliando as características de cada página, sem comparar com outras páginas. Neste trabalho apresentamos um algoritmo, chamado NCE ( News Content Extractor), orientado a página e que se propõe a realizar extração de entidades em páginas de notícias. Ele utiliza atributos de uma árvore DOM para localizar determinadas entidades de uma página de notícia, mais especificamente, o título e o corpo da notícia. Algumas métricas são apresentadas e utilizadas para aferir a qualidade do NCE. Quando comparado com outro método baseado em página e que utiliza atributos visuais, o NCE se mostrou superior tanto em relação à qualidade de extração quanto no que diz respeito ao tempo de execução.[en] The entity extraction of web pages is commonly used to enhance the quality of tasks performed by search engines, like duplicate pages and ranking. The relevance of entity extraction is crucial due to the fact that search engines have to deal with fast growning volume of information on the web. There are many algorithms that detect entities in the literature, some using site level strategy and others using page level strategy. The site level strategy uses many pages from the same site to create a model that extracts templates. The page level strategy creates a model to extract templates according to features of the page. Here we present an algorithm, called NCE (News Content Extractor), that uses a page level strategy and its objective is to perform entity extraction on news pages. It uses features from a DOM tree to search for certain entities, namely, the news title and news body. Some measures are presented and used to evaluate how good NCE is. When we compare NCE to a page level algorithm that uses visual features, NCE shows better execution time and extraction quality.MAXWELLEDUARDO SANY LABEREDUARDO SANY LABEREVELIN CARVALHO FREIRE DE AMORIM2017-09-15info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/otherhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=31449@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=31449@2http://doi.org/10.17771/PUCRio.acad.31449porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2017-09-19T00:00:00Zoai:MAXWELL.puc-rio.br:31449Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342017-09-19T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false |
dc.title.none.fl_str_mv |
[en] NCE: AN ALGORITHM FOR CONTENT EXTRACTION IN NEWS PAGES [pt] NCE: UM ALGORITMO PARA EXTRAÇÃO DE CONTEÚDO DE PÁGINAS DE NOTÍCIAS |
title |
[en] NCE: AN ALGORITHM FOR CONTENT EXTRACTION IN NEWS PAGES |
spellingShingle |
[en] NCE: AN ALGORITHM FOR CONTENT EXTRACTION IN NEWS PAGES EVELIN CARVALHO FREIRE DE AMORIM [pt] WEB [pt] EXTRACAO [pt] MAQUINAS DE BUSCA [pt] ARVORE [pt] ALGORITMO [en] WEB [en] EXTRACTION [en] SEARCH ENGINES [en] TREE [en] ALGORITHM |
title_short |
[en] NCE: AN ALGORITHM FOR CONTENT EXTRACTION IN NEWS PAGES |
title_full |
[en] NCE: AN ALGORITHM FOR CONTENT EXTRACTION IN NEWS PAGES |
title_fullStr |
[en] NCE: AN ALGORITHM FOR CONTENT EXTRACTION IN NEWS PAGES |
title_full_unstemmed |
[en] NCE: AN ALGORITHM FOR CONTENT EXTRACTION IN NEWS PAGES |
title_sort |
[en] NCE: AN ALGORITHM FOR CONTENT EXTRACTION IN NEWS PAGES |
author |
EVELIN CARVALHO FREIRE DE AMORIM |
author_facet |
EVELIN CARVALHO FREIRE DE AMORIM |
author_role |
author |
dc.contributor.none.fl_str_mv |
EDUARDO SANY LABER EDUARDO SANY LABER |
dc.contributor.author.fl_str_mv |
EVELIN CARVALHO FREIRE DE AMORIM |
dc.subject.por.fl_str_mv |
[pt] WEB [pt] EXTRACAO [pt] MAQUINAS DE BUSCA [pt] ARVORE [pt] ALGORITMO [en] WEB [en] EXTRACTION [en] SEARCH ENGINES [en] TREE [en] ALGORITHM |
topic |
[pt] WEB [pt] EXTRACAO [pt] MAQUINAS DE BUSCA [pt] ARVORE [pt] ALGORITMO [en] WEB [en] EXTRACTION [en] SEARCH ENGINES [en] TREE [en] ALGORITHM |
description |
[pt] A extração de entidades de páginas web é comumente utilizada para melhorar a qualidade de muitas tarefas realizadas por máquinas de busca como detecção de páginas duplicadas e ranking. Essa tarefa se torna ainda mais relevante devido ao crescente volume de informação da internet com as quais as máquinas de busca precisam lidar. Existem diversos algoritmos para detecção de conteúdo na literatura, alguns orientados a sites e outros que utilizam uma abordagem mais local e são chamados de algoritmos orientados a páginas. Os algoritmos orientados a sites utilizam várias páginas de um mesmo site para criar um modelo que detecta o conteúdo relevante da página. Os algoritmos orientados a páginas detectam conteúdo avaliando as características de cada página, sem comparar com outras páginas. Neste trabalho apresentamos um algoritmo, chamado NCE ( News Content Extractor), orientado a página e que se propõe a realizar extração de entidades em páginas de notícias. Ele utiliza atributos de uma árvore DOM para localizar determinadas entidades de uma página de notícia, mais especificamente, o título e o corpo da notícia. Algumas métricas são apresentadas e utilizadas para aferir a qualidade do NCE. Quando comparado com outro método baseado em página e que utiliza atributos visuais, o NCE se mostrou superior tanto em relação à qualidade de extração quanto no que diz respeito ao tempo de execução. |
publishDate |
2017 |
dc.date.none.fl_str_mv |
2017-09-15 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/other |
format |
other |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=31449@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=31449@2 http://doi.org/10.17771/PUCRio.acad.31449 |
url |
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=31449@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=31449@2 http://doi.org/10.17771/PUCRio.acad.31449 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
MAXWELL |
publisher.none.fl_str_mv |
MAXWELL |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell) instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) instacron:PUC_RIO |
instname_str |
Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) |
instacron_str |
PUC_RIO |
institution |
PUC_RIO |
reponame_str |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
collection |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
repository.name.fl_str_mv |
Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) |
repository.mail.fl_str_mv |
|
_version_ |
1814822603687198720 |