[pt] CLASSIFICAÇÃO DE PÁGINAS WEB POR APRENDIZAGEM DE MÚLTIPLAS CATEGORIAS LATENTES

Detalhes bibliográficos
Autor(a) principal: FRANCISCO BENJAMIM FILHO
Data de Publicação: 2012
Tipo de documento: Outros
Idioma: por
Título da fonte: Repositório Institucional da PUC-RIO (Projeto Maxwell)
Texto Completo: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=19540@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=19540@2
http://doi.org/10.17771/PUCRio.acad.19540
Resumo: [pt] O crescimento explosivo e a acessibilidade generalizada da World Wide Web (WWW) levaram ao aumento da atividade de pesquisa na área da recuperação de informação para páginas Web. A WWW é um rico e imenso ambiente em que as páginas se assemelham a uma comunidade grande de elementos conectada através de hiperlinks em razão da semelhança entre o conteúdo das páginas, a popularidade da página, a autoridade sobre o assunto e assim por diante, sabendo-se que, em verdade, quando um autor de uma página a vincula à outra, está concebendo-a como importante para si. Por isso, a estrutura de hiperlink da WWW é conhecida por melhorar significativamente o desempenho das pesquisas para além do uso de estatísticas de distribuição simples de texto. Nesse sentido, a abordagem Hyperlink Induced Topic Search (HITS) introduz duas categorias básicas de páginas Web, hubs e autoridades, que revelam algumas informações semânticas ocultas a partir da estrutura de hiperlink. Em 2005, fizemos uma primeira extensão do HITS, denominada de Extended Hyperlink Induced Topic Search (XHITS), que inseriu duas novas categorias de páginas Web, quais sejam, novidades e portais. Na presente tese, revisamos o XHITS, transformando-o em uma generalização do HITS, ampliando o modelo de duas categorias para várias e apresentando um algoritmo eficiente de aprendizagem de máquina para calibrar o modelo proposto valendo-se de múltiplas categorias latentes. As descobertas aqui expostas indicam que a nova abordagem de aprendizagem fornece um modelo XHITS mais preciso. É importante registrar, por fim, que os experimentos realizados com a coleção ClueWeb09 25TB de páginas da WWW, baixadas em 2009, mostram que o XHITS pode melhorar significativamente a eficácia da pesquisa Web e produzir resultados comparáveis aos do TREC 2009/2010 Web Track, colocando-o na sexta posição, conforme os resultados publicados.
id PUC_RIO-1_a6f566e5300524009d40273441fb7e34
oai_identifier_str oai:MAXWELL.puc-rio.br:19540
network_acronym_str PUC_RIO-1
network_name_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str 534
spelling [pt] CLASSIFICAÇÃO DE PÁGINAS WEB POR APRENDIZAGEM DE MÚLTIPLAS CATEGORIAS LATENTES [en] RANKING OF WEB PAGES BY LEARNING MULTIPLE LATENT CATEGORIES [pt] CLASSIFICACAO[pt] MAQUINAS DE BUSCA[pt] WORLD WIDE WEB[pt] ALGORITMO[en] CLASSIFICATION[en] SEARCH ENGINES[en] ALGORITHM[pt] O crescimento explosivo e a acessibilidade generalizada da World Wide Web (WWW) levaram ao aumento da atividade de pesquisa na área da recuperação de informação para páginas Web. A WWW é um rico e imenso ambiente em que as páginas se assemelham a uma comunidade grande de elementos conectada através de hiperlinks em razão da semelhança entre o conteúdo das páginas, a popularidade da página, a autoridade sobre o assunto e assim por diante, sabendo-se que, em verdade, quando um autor de uma página a vincula à outra, está concebendo-a como importante para si. Por isso, a estrutura de hiperlink da WWW é conhecida por melhorar significativamente o desempenho das pesquisas para além do uso de estatísticas de distribuição simples de texto. Nesse sentido, a abordagem Hyperlink Induced Topic Search (HITS) introduz duas categorias básicas de páginas Web, hubs e autoridades, que revelam algumas informações semânticas ocultas a partir da estrutura de hiperlink. Em 2005, fizemos uma primeira extensão do HITS, denominada de Extended Hyperlink Induced Topic Search (XHITS), que inseriu duas novas categorias de páginas Web, quais sejam, novidades e portais. Na presente tese, revisamos o XHITS, transformando-o em uma generalização do HITS, ampliando o modelo de duas categorias para várias e apresentando um algoritmo eficiente de aprendizagem de máquina para calibrar o modelo proposto valendo-se de múltiplas categorias latentes. As descobertas aqui expostas indicam que a nova abordagem de aprendizagem fornece um modelo XHITS mais preciso. É importante registrar, por fim, que os experimentos realizados com a coleção ClueWeb09 25TB de páginas da WWW, baixadas em 2009, mostram que o XHITS pode melhorar significativamente a eficácia da pesquisa Web e produzir resultados comparáveis aos do TREC 2009/2010 Web Track, colocando-o na sexta posição, conforme os resultados publicados.[en] The rapid growth and generalized accessibility of the World Wide Web (WWW) have led to an increase in research in the field of the information retrieval for Web pages. The WWW is an immense and prodigious environment in which Web pages resemble a huge community of elements. These elements are connected via hyperlinks on the basis of similarity between the content of the pages, the popularity of a given page, the extent to which the information provided is authoritative in relation to a given field etc. In fact, when the author of a Web page links it to another, s/he is acknowledging the importance of the linked page to his/her information. As such the hyperlink structure of the WWW significantly improves research performance beyond the use of simple text distribution statistics. To this effect, the HITS approach introduces two basic categories of Web pages, hubs and authorities which uncover certain hidden semantic information using the hyperlink structure. In 2005, we made a first extension of HITS, called Extended Hyperlink Induced Topic Search (XHITS), which inserted two new categories of Web pages, which are novelties and portals. In this thesis, we revised the XHITS, transforming it into a generalization of HITS, broadening the model from two categories to various and presenting an efficient machine learning algorithm to calibrate the proposed model using multiple latent categories. The findings we set out here indicate that the new learning approach provides a more precise XHITS model. It is important to note, in closing, that experiments with the ClueWeb09 25TB collection of Web pages, downloaded in 2009, demonstrated that the XHITS is capable of significantly improving Web research efficiency and producing results comparable to those of the TREC 2009/2010 Web Track.MAXWELLRUY LUIZ MILIDIUFRANCISCO BENJAMIM FILHO2012-05-17info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/otherhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=19540@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=19540@2http://doi.org/10.17771/PUCRio.acad.19540porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2019-08-22T00:00:00Zoai:MAXWELL.puc-rio.br:19540Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342019-08-22T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv [pt] CLASSIFICAÇÃO DE PÁGINAS WEB POR APRENDIZAGEM DE MÚLTIPLAS CATEGORIAS LATENTES
[en] RANKING OF WEB PAGES BY LEARNING MULTIPLE LATENT CATEGORIES
title [pt] CLASSIFICAÇÃO DE PÁGINAS WEB POR APRENDIZAGEM DE MÚLTIPLAS CATEGORIAS LATENTES
spellingShingle [pt] CLASSIFICAÇÃO DE PÁGINAS WEB POR APRENDIZAGEM DE MÚLTIPLAS CATEGORIAS LATENTES
FRANCISCO BENJAMIM FILHO
[pt] CLASSIFICACAO
[pt] MAQUINAS DE BUSCA
[pt] WORLD WIDE WEB
[pt] ALGORITMO
[en] CLASSIFICATION
[en] SEARCH ENGINES
[en] ALGORITHM
title_short [pt] CLASSIFICAÇÃO DE PÁGINAS WEB POR APRENDIZAGEM DE MÚLTIPLAS CATEGORIAS LATENTES
title_full [pt] CLASSIFICAÇÃO DE PÁGINAS WEB POR APRENDIZAGEM DE MÚLTIPLAS CATEGORIAS LATENTES
title_fullStr [pt] CLASSIFICAÇÃO DE PÁGINAS WEB POR APRENDIZAGEM DE MÚLTIPLAS CATEGORIAS LATENTES
title_full_unstemmed [pt] CLASSIFICAÇÃO DE PÁGINAS WEB POR APRENDIZAGEM DE MÚLTIPLAS CATEGORIAS LATENTES
title_sort [pt] CLASSIFICAÇÃO DE PÁGINAS WEB POR APRENDIZAGEM DE MÚLTIPLAS CATEGORIAS LATENTES
author FRANCISCO BENJAMIM FILHO
author_facet FRANCISCO BENJAMIM FILHO
author_role author
dc.contributor.none.fl_str_mv RUY LUIZ MILIDIU
dc.contributor.author.fl_str_mv FRANCISCO BENJAMIM FILHO
dc.subject.por.fl_str_mv [pt] CLASSIFICACAO
[pt] MAQUINAS DE BUSCA
[pt] WORLD WIDE WEB
[pt] ALGORITMO
[en] CLASSIFICATION
[en] SEARCH ENGINES
[en] ALGORITHM
topic [pt] CLASSIFICACAO
[pt] MAQUINAS DE BUSCA
[pt] WORLD WIDE WEB
[pt] ALGORITMO
[en] CLASSIFICATION
[en] SEARCH ENGINES
[en] ALGORITHM
description [pt] O crescimento explosivo e a acessibilidade generalizada da World Wide Web (WWW) levaram ao aumento da atividade de pesquisa na área da recuperação de informação para páginas Web. A WWW é um rico e imenso ambiente em que as páginas se assemelham a uma comunidade grande de elementos conectada através de hiperlinks em razão da semelhança entre o conteúdo das páginas, a popularidade da página, a autoridade sobre o assunto e assim por diante, sabendo-se que, em verdade, quando um autor de uma página a vincula à outra, está concebendo-a como importante para si. Por isso, a estrutura de hiperlink da WWW é conhecida por melhorar significativamente o desempenho das pesquisas para além do uso de estatísticas de distribuição simples de texto. Nesse sentido, a abordagem Hyperlink Induced Topic Search (HITS) introduz duas categorias básicas de páginas Web, hubs e autoridades, que revelam algumas informações semânticas ocultas a partir da estrutura de hiperlink. Em 2005, fizemos uma primeira extensão do HITS, denominada de Extended Hyperlink Induced Topic Search (XHITS), que inseriu duas novas categorias de páginas Web, quais sejam, novidades e portais. Na presente tese, revisamos o XHITS, transformando-o em uma generalização do HITS, ampliando o modelo de duas categorias para várias e apresentando um algoritmo eficiente de aprendizagem de máquina para calibrar o modelo proposto valendo-se de múltiplas categorias latentes. As descobertas aqui expostas indicam que a nova abordagem de aprendizagem fornece um modelo XHITS mais preciso. É importante registrar, por fim, que os experimentos realizados com a coleção ClueWeb09 25TB de páginas da WWW, baixadas em 2009, mostram que o XHITS pode melhorar significativamente a eficácia da pesquisa Web e produzir resultados comparáveis aos do TREC 2009/2010 Web Track, colocando-o na sexta posição, conforme os resultados publicados.
publishDate 2012
dc.date.none.fl_str_mv 2012-05-17
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/other
format other
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=19540@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=19540@2
http://doi.org/10.17771/PUCRio.acad.19540
url https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=19540@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=19540@2
http://doi.org/10.17771/PUCRio.acad.19540
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv MAXWELL
publisher.none.fl_str_mv MAXWELL
dc.source.none.fl_str_mv reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)
instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron:PUC_RIO
instname_str Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str PUC_RIO
institution PUC_RIO
reponame_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_ 1814822582343434240