Uso de marcadores estilísticos para a busca na Web em português
Autor(a) principal: | |
---|---|
Data de Publicação: | 2005 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | http://www.teses.usp.br/teses/disponiveis/55/55134/tde-02102014-151002/ |
Resumo: | Como lidar com o excesso de informação ao qual usuários são submetidos em suas buscas na Web? São muitas as páginas sobre um mesmo assunto, por isso uma solução pode ser separá-las segundo os objetivos dos escritores. Melhor ainda seria separá-las segundo os objetivos dos leitores, tão diversos como buscar um programa, aprender sobre uma matéria ou saber as últimas notícias sobre um dado assunto. Esse é o objetivo desta tese. Ir além do conteúdo dos textos para minimizar o esforço do usuário em encontrar os documentos que são relevantes para sua consulta em um dado instante de busca. Investigou-se pela primeira vez a hipótese de que é tecnicamente possível e de fácil compreensão a classificação resultados de busca segundo os seus objetivos. Para isso estudou-se a classificação automática dos resultados de buscas na Web em português segundo a intenção da busca. Foram aplicados algoritmos de aprendizado de máquina sobre características linguísticas relacionadas com o estilo de documentos em português, e desenvolvidos estudos com usuários para avaliar na prática os classificadores criados. Foi também investigada a possibilidade de desenvolver classificadores personalizados que.dentro de um determinado assunto, separassem páginas interessantes de outras irrelevantes, com base em pequenos corpora de treinamento. Para a avaliação, foram utilizadas tanto as avaliações de sistema como as centradas no usuário. Os resultados mostram que (i) a classificação em necessidades é um conceito compreendido pelos usuários, (li) o uso de marcadores estilísticos é um caminho barato e eficiente a ser investigado para obter classificadores confiáveis, (iii) o treinamento com pequenos corpora da Web é capaz de gerar classificadores confiáveis, e (iv) a busca pode ser facilitada por resultados classificados segundo necessidades de busca. |
id |
USP_fa0244fdbc8b9d5362aa74696a1ae458 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-02102014-151002 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Uso de marcadores estilísticos para a busca na Web em portuguêsUsing style markers in Portuguese Web Searching.Não disponívelNot availableComo lidar com o excesso de informação ao qual usuários são submetidos em suas buscas na Web? São muitas as páginas sobre um mesmo assunto, por isso uma solução pode ser separá-las segundo os objetivos dos escritores. Melhor ainda seria separá-las segundo os objetivos dos leitores, tão diversos como buscar um programa, aprender sobre uma matéria ou saber as últimas notícias sobre um dado assunto. Esse é o objetivo desta tese. Ir além do conteúdo dos textos para minimizar o esforço do usuário em encontrar os documentos que são relevantes para sua consulta em um dado instante de busca. Investigou-se pela primeira vez a hipótese de que é tecnicamente possível e de fácil compreensão a classificação resultados de busca segundo os seus objetivos. Para isso estudou-se a classificação automática dos resultados de buscas na Web em português segundo a intenção da busca. Foram aplicados algoritmos de aprendizado de máquina sobre características linguísticas relacionadas com o estilo de documentos em português, e desenvolvidos estudos com usuários para avaliar na prática os classificadores criados. Foi também investigada a possibilidade de desenvolver classificadores personalizados que.dentro de um determinado assunto, separassem páginas interessantes de outras irrelevantes, com base em pequenos corpora de treinamento. Para a avaliação, foram utilizadas tanto as avaliações de sistema como as centradas no usuário. Os resultados mostram que (i) a classificação em necessidades é um conceito compreendido pelos usuários, (li) o uso de marcadores estilísticos é um caminho barato e eficiente a ser investigado para obter classificadores confiáveis, (iii) o treinamento com pequenos corpora da Web é capaz de gerar classificadores confiáveis, e (iv) a busca pode ser facilitada por resultados classificados segundo necessidades de busca.How should one cope with information overtlow. when there are too many pages on the Web aboul almost every subject? This thesis addresses the problem of information overtlow users taco when dealing with Web search results. To go beyond content it is proposed to classifv pages according to the seareli goals they sorve from a user point of view: to download a system learn some subject or find news about another are quite different user goals. The hypothesis validated in the present dissertation is that it is both technically feasible and understandble to classifv Web pages according to user goal. By using machine learning teehniques over linguistically inspired features. automatic classifiers were built to distinguish among user needs. Also. several user studies were conducted to assess the understandability of the concepts at stake and the gain achieved by using the particular classification in the displav of the results. In addition. this work also tested personalized binarv classifiers about specilfic subjects. traíned in small traming corpora supplied by the users themselves. With regard to evaluation. both system evaluation and user-centered evaluation were performed. The results show that (i) the user needs classification is understood by the user. (ii) the use of style markers are a reliable path to be investigated (iii) traimng on small Web corpora is able to generate reliable classifiers. and ( iv ) search can be eased by classifying scarch results according to user needs.Biblioteca Digitais de Teses e Dissertações da USPAluisio, Sandra MariaSantos, Diana Maria de Sousa Marques Pinto dosAires, Rachel Virgínia Xavier2005-09-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/55/55134/tde-02102014-151002/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2016-07-28T16:11:55Zoai:teses.usp.br:tde-02102014-151002Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212016-07-28T16:11:55Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Uso de marcadores estilísticos para a busca na Web em português Using style markers in Portuguese Web Searching. |
title |
Uso de marcadores estilísticos para a busca na Web em português |
spellingShingle |
Uso de marcadores estilísticos para a busca na Web em português Aires, Rachel Virgínia Xavier Não disponível Not available |
title_short |
Uso de marcadores estilísticos para a busca na Web em português |
title_full |
Uso de marcadores estilísticos para a busca na Web em português |
title_fullStr |
Uso de marcadores estilísticos para a busca na Web em português |
title_full_unstemmed |
Uso de marcadores estilísticos para a busca na Web em português |
title_sort |
Uso de marcadores estilísticos para a busca na Web em português |
author |
Aires, Rachel Virgínia Xavier |
author_facet |
Aires, Rachel Virgínia Xavier |
author_role |
author |
dc.contributor.none.fl_str_mv |
Aluisio, Sandra Maria Santos, Diana Maria de Sousa Marques Pinto dos |
dc.contributor.author.fl_str_mv |
Aires, Rachel Virgínia Xavier |
dc.subject.por.fl_str_mv |
Não disponível Not available |
topic |
Não disponível Not available |
description |
Como lidar com o excesso de informação ao qual usuários são submetidos em suas buscas na Web? São muitas as páginas sobre um mesmo assunto, por isso uma solução pode ser separá-las segundo os objetivos dos escritores. Melhor ainda seria separá-las segundo os objetivos dos leitores, tão diversos como buscar um programa, aprender sobre uma matéria ou saber as últimas notícias sobre um dado assunto. Esse é o objetivo desta tese. Ir além do conteúdo dos textos para minimizar o esforço do usuário em encontrar os documentos que são relevantes para sua consulta em um dado instante de busca. Investigou-se pela primeira vez a hipótese de que é tecnicamente possível e de fácil compreensão a classificação resultados de busca segundo os seus objetivos. Para isso estudou-se a classificação automática dos resultados de buscas na Web em português segundo a intenção da busca. Foram aplicados algoritmos de aprendizado de máquina sobre características linguísticas relacionadas com o estilo de documentos em português, e desenvolvidos estudos com usuários para avaliar na prática os classificadores criados. Foi também investigada a possibilidade de desenvolver classificadores personalizados que.dentro de um determinado assunto, separassem páginas interessantes de outras irrelevantes, com base em pequenos corpora de treinamento. Para a avaliação, foram utilizadas tanto as avaliações de sistema como as centradas no usuário. Os resultados mostram que (i) a classificação em necessidades é um conceito compreendido pelos usuários, (li) o uso de marcadores estilísticos é um caminho barato e eficiente a ser investigado para obter classificadores confiáveis, (iii) o treinamento com pequenos corpora da Web é capaz de gerar classificadores confiáveis, e (iv) a busca pode ser facilitada por resultados classificados segundo necessidades de busca. |
publishDate |
2005 |
dc.date.none.fl_str_mv |
2005-09-21 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://www.teses.usp.br/teses/disponiveis/55/55134/tde-02102014-151002/ |
url |
http://www.teses.usp.br/teses/disponiveis/55/55134/tde-02102014-151002/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256620079251456 |