Identificando o Tópico de Páginas Web

Lima, Márcia Sampaio; http://lattes.cnpq.br/2066466047322329

Identificando o Tópico de Páginas Web

Detalhes bibliográficos
Autor(a) principal:	Lima, Márcia Sampaio
Data de Publicação:	2009
Outros Autores:	http://lattes.cnpq.br/2066466047322329
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFAM
Texto Completo:	http://tede.ufam.edu.br/handle/tede/2957
Resumo:	Evidências textuais e estruturais que podem ser extraídas dos documentos web são frequentemente usadas na busca pela melhoria da qualidade dos resultados obtidos pelos diversos sistemas de recuperação de informação (RI). O tópico de uma página web é uma evidência textual que possui uma vasta aplicabilidade nesses sistemas, podendo servir como uma nova fonte de evidência para melhorar ranking de páginas web, melhorar sistemas de classificação e filtragem destas páginas, entre outros. O presente trabalho tem por objetivo estudar, desenvolver e avaliar um método para identificar automaticamente o tópico de páginas web através da combinação de diferentes fontes de evidências. Definimos o tópico de uma página como sendo um conjunto de, no máximo, cinco termos distintos relacionadas ao assunto principal da página. Em linhas gerais, o método de identificação de tópicos proposto nesta dissertação, está dividido em quatro fases distintas: (1) identificação dos possíveis termos descritores de uma página web, fazendo uso de múltiplas fontes de evidências; (2) utilização de um algoritmo genético na combinação das fontes de evidências usadas; (3) definição dos três melhores termos descritores da página; e (4) utilização da estrutura hierárquica de um diretório abrangente e popular da web com o objetivo de identificar o tópico da referida página. Os resultados obtidos nos experimentos realizados para avaliar o método proposto foram os seguintes: (1) alto grau de importância do uso da concatenação do texto de âncora de links na descoberta dos termos descritores de uma página web; (2) boa avaliação da eficiência do método proposto na identificação de tópicos de páginas web: 0.9129, em uma escala de zero a um; e (3) boa avaliação da utilização de parte do método proposto na classificação automática de páginas web na estrutura hierárquica do diretório Google, atingindo 88%±0.11 de acertos das páginas classificadas. Os experimentos realizados demonstram que o modelo proposto é útil na identificação do tópico de uma página web e também na classificação de páginas na estrutura hierárquica do diretório Google.

Metadados do item

id	UFAM_fb36c29057d7b5c9ee6519d040f98d1f
oai_identifier_str	oai:https://tede.ufam.edu.br/handle/:tede/2957
network_acronym_str	UFAM
network_name_str	Biblioteca Digital de Teses e Dissertações da UFAM
repository_id_str	6592
spelling	Identificando o Tópico de Páginas WebIdentifying the topic of Web PagesTópico de páginas WebAlgoritmos genéticosMúltiplas fontes de evidênciasDiretórios webTopic of web pageGenetic algorithmMultiple sources of evidencesWeb directoriesCIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃOEvidências textuais e estruturais que podem ser extraídas dos documentos web são frequentemente usadas na busca pela melhoria da qualidade dos resultados obtidos pelos diversos sistemas de recuperação de informação (RI). O tópico de uma página web é uma evidência textual que possui uma vasta aplicabilidade nesses sistemas, podendo servir como uma nova fonte de evidência para melhorar ranking de páginas web, melhorar sistemas de classificação e filtragem destas páginas, entre outros. O presente trabalho tem por objetivo estudar, desenvolver e avaliar um método para identificar automaticamente o tópico de páginas web através da combinação de diferentes fontes de evidências. Definimos o tópico de uma página como sendo um conjunto de, no máximo, cinco termos distintos relacionadas ao assunto principal da página. Em linhas gerais, o método de identificação de tópicos proposto nesta dissertação, está dividido em quatro fases distintas: (1) identificação dos possíveis termos descritores de uma página web, fazendo uso de múltiplas fontes de evidências; (2) utilização de um algoritmo genético na combinação das fontes de evidências usadas; (3) definição dos três melhores termos descritores da página; e (4) utilização da estrutura hierárquica de um diretório abrangente e popular da web com o objetivo de identificar o tópico da referida página. Os resultados obtidos nos experimentos realizados para avaliar o método proposto foram os seguintes: (1) alto grau de importância do uso da concatenação do texto de âncora de links na descoberta dos termos descritores de uma página web; (2) boa avaliação da eficiência do método proposto na identificação de tópicos de páginas web: 0.9129, em uma escala de zero a um; e (3) boa avaliação da utilização de parte do método proposto na classificação automática de páginas web na estrutura hierárquica do diretório Google, atingindo 88%±0.11 de acertos das páginas classificadas. Os experimentos realizados demonstram que o modelo proposto é útil na identificação do tópico de uma página web e também na classificação de páginas na estrutura hierárquica do diretório Google.Textual and structural sources of evidences extracted from web pages are frequently used to improve the results of Information Retrieval (IR) systems. The main topic of a web page is a textual source of evidence that has a wide applicability in IR systems. It can be used as a new source of evidence to improve ranking results, page classification, filtering, among other applications. In this work, we propose to study, develop and evaluate a method to identify the main topic of a web page using a combination of different sources of evidences. We define the main topic of a web page as a set of, at most, five distinct keywords related to the main subject of the page. In general, the proposed method, is divided in four distinct phases: (1) identification of the keywords that describe the web page content, using multiple sources of evidences; (2) use of a genetic algorithm to combine the sources of evidences; (3) definition of the three better keywords of the page; and (4) use of a web directory to identify the page main topic. The results of the experiments show that: (1) the best source of evidence used to describe the keywords of a web page is the content link; (2) the proposed method is efficient to identify the main topic of a web page: 0.9129, in a scale of zero to one; and (3) the proposed method is also efficient to automatic classify web pages within the Google directory, reaching 88%±0.11 of precision in the classification task.Fundação de Amparo à Pesquisa do Estado do AmazonasUniversidade Federal do AmazonasInstituto de ComputaçãoBRUFAMPrograma de Pós-graduação em InformáticaCavalcanti, João Marcos Bastoshttp://lattes.cnpq.br/3537707069694606Lima, Márcia Sampaiohttp://lattes.cnpq.br/20664660473223292015-04-11T14:03:16Z2012-10-082009-04-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfLIMA, Márcia Sampaio.Identificando o Tópico de Páginas Web. 2009. 73 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2009.http://tede.ufam.edu.br/handle/tede/2957porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2016-04-22T14:25:05Zoai:https://tede.ufam.edu.br/handle/:tede/2957Biblioteca Digital de Teses e Dissertaçõeshttp://200.129.163.131:8080/PUBhttp://200.129.163.131:8080/oai/requestddbc@ufam.edu.br\|\|ddbc@ufam.edu.bropendoar:65922016-04-22T14:25:05Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)false
dc.title.none.fl_str_mv	Identificando o Tópico de Páginas Web Identifying the topic of Web Pages
title	Identificando o Tópico de Páginas Web
spellingShingle	Identificando o Tópico de Páginas Web Lima, Márcia Sampaio Tópico de páginas Web Algoritmos genéticos Múltiplas fontes de evidências Diretórios web Topic of web page Genetic algorithm Multiple sources of evidences Web directories CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
title_short	Identificando o Tópico de Páginas Web
title_full	Identificando o Tópico de Páginas Web
title_fullStr	Identificando o Tópico de Páginas Web
title_full_unstemmed	Identificando o Tópico de Páginas Web
title_sort	Identificando o Tópico de Páginas Web
author	Lima, Márcia Sampaio
author_facet	Lima, Márcia Sampaio http://lattes.cnpq.br/2066466047322329
author_role	author
author2	http://lattes.cnpq.br/2066466047322329
author2_role	author
dc.contributor.none.fl_str_mv	Cavalcanti, João Marcos Bastos http://lattes.cnpq.br/3537707069694606
dc.contributor.author.fl_str_mv	Lima, Márcia Sampaio http://lattes.cnpq.br/2066466047322329
dc.subject.por.fl_str_mv	Tópico de páginas Web Algoritmos genéticos Múltiplas fontes de evidências Diretórios web Topic of web page Genetic algorithm Multiple sources of evidences Web directories CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
topic	Tópico de páginas Web Algoritmos genéticos Múltiplas fontes de evidências Diretórios web Topic of web page Genetic algorithm Multiple sources of evidences Web directories CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
description	Evidências textuais e estruturais que podem ser extraídas dos documentos web são frequentemente usadas na busca pela melhoria da qualidade dos resultados obtidos pelos diversos sistemas de recuperação de informação (RI). O tópico de uma página web é uma evidência textual que possui uma vasta aplicabilidade nesses sistemas, podendo servir como uma nova fonte de evidência para melhorar ranking de páginas web, melhorar sistemas de classificação e filtragem destas páginas, entre outros. O presente trabalho tem por objetivo estudar, desenvolver e avaliar um método para identificar automaticamente o tópico de páginas web através da combinação de diferentes fontes de evidências. Definimos o tópico de uma página como sendo um conjunto de, no máximo, cinco termos distintos relacionadas ao assunto principal da página. Em linhas gerais, o método de identificação de tópicos proposto nesta dissertação, está dividido em quatro fases distintas: (1) identificação dos possíveis termos descritores de uma página web, fazendo uso de múltiplas fontes de evidências; (2) utilização de um algoritmo genético na combinação das fontes de evidências usadas; (3) definição dos três melhores termos descritores da página; e (4) utilização da estrutura hierárquica de um diretório abrangente e popular da web com o objetivo de identificar o tópico da referida página. Os resultados obtidos nos experimentos realizados para avaliar o método proposto foram os seguintes: (1) alto grau de importância do uso da concatenação do texto de âncora de links na descoberta dos termos descritores de uma página web; (2) boa avaliação da eficiência do método proposto na identificação de tópicos de páginas web: 0.9129, em uma escala de zero a um; e (3) boa avaliação da utilização de parte do método proposto na classificação automática de páginas web na estrutura hierárquica do diretório Google, atingindo 88%±0.11 de acertos das páginas classificadas. Os experimentos realizados demonstram que o modelo proposto é útil na identificação do tópico de uma página web e também na classificação de páginas na estrutura hierárquica do diretório Google.
publishDate	2009
dc.date.none.fl_str_mv	2009-04-24 2012-10-08 2015-04-11T14:03:16Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	LIMA, Márcia Sampaio.Identificando o Tópico de Páginas Web. 2009. 73 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2009. http://tede.ufam.edu.br/handle/tede/2957
identifier_str_mv	LIMA, Márcia Sampaio.Identificando o Tópico de Páginas Web. 2009. 73 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2009.
url	http://tede.ufam.edu.br/handle/tede/2957
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal do Amazonas Instituto de Computação BR UFAM Programa de Pós-graduação em Informática
publisher.none.fl_str_mv	Universidade Federal do Amazonas Instituto de Computação BR UFAM Programa de Pós-graduação em Informática
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFAM instname:Universidade Federal do Amazonas (UFAM) instacron:UFAM
instname_str	Universidade Federal do Amazonas (UFAM)
instacron_str	UFAM
institution	UFAM
reponame_str	Biblioteca Digital de Teses e Dissertações da UFAM
collection	Biblioteca Digital de Teses e Dissertações da UFAM
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)
repository.mail.fl_str_mv	ddbc@ufam.edu.br\|\|ddbc@ufam.edu.br
_version_	1809732004675059712

Identificando o Tópico de Páginas Web

Registros relacionados