Comportamento de Metricas de Inteligibilidade Textual em Documentos Recuperados naWeb

Detalhes bibliográficos
Autor(a) principal: Londero, Eduardo Bauer
Data de Publicação: 2011
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações do UCpel
Texto Completo: http://tede.ucpel.edu.br:8080/jspui/handle/tede/220
Resumo: Textos recuperados da Internet por interm´edio de consultas ao Google e Yahoo s ao analisados segundo uma m´etrica simples de avaliac¸ ao de inteligibilidade textual. Tais m´etricas foram criadas para orientar a produc¸ ao textual e recentemente tamb´em foram empregadas em simplificadores textuais autom´aticos experimentais para leitores inexperientes. Nesse trabalho aplicam-se essas m´etricas a texto originais livres, recuperados da Internet, para buscar correlacionar o grau de inteligibilidade textual com a relev ancia que lhes ´e conferida pelos buscadores utilizados. A premissa inicial a estimular a comparac¸ ao entre inteligibilidade e relev ancia ´e o enunciado conhecido como Princ´ıpio de Occam, ou princ´ıpio da economia. Observa-se uma tend encia centralista que ocorre a partir do pequeno afastamento m´edio dos grupos de arquivos melhor colocados no ranking em relac¸ ao `a m´edia da categoria a que pertencem. ´E com a medida do afastamento m´edio que se consegue verificar correlac¸ ao com a posic¸ ao do arquivo no ranking e ´e tamb´em com essa medida que se consegue registrar diferenc¸as entre o m´etodo de calcular a relev ancia do Google e do Yahoo. Um experimento que decorre do primeiro estudo procura determinar se a medida de inteligibilidade pode ser empregada para auxiliar o usu´ario da Internet a escolher arquivos mais simples ou se a sua indicac¸ ao junto `a listagem de links recuperados ´e ´util e informativa para a escolha e navegac¸ ao do usu´ario. Em um experimento final, embasado no conhecimento previamente obtido, s ao comparadas as enciclop´edias Brit anica eWikip´edia por meio do emprego da m´etrica de inteligibilidade Flesch-Kincaid Grade Level
id UCPe_2737838d6dea39cdf11ec92c0eed93a6
oai_identifier_str oai:tede.ucpel.edu.br:tede/220
network_acronym_str UCPe
network_name_str Biblioteca Digital de Teses e Dissertações do UCpel
repository_id_str
spelling Comportamento de Metricas de Inteligibilidade Textual em Documentos Recuperados naWebTHE BEHAVIOR OF READABILITY METRICS IN DOCUMENTS RETRIEVED IN INTERNET AND ITS USE AS AN INFORMATION RETRIEVAL QUERY PARAMETERRecuperação de Informações TextuaisRecuperação de Informaçoes Textuais na WEBProcessamento de Linguagem NaturalGoogle, Yahoo, Coh-Metrix, Relevance, Readability, Information Retrieval, Natural Language Processing, Flesch-KinCaid Grade Level, Wikipedia, BritannicaCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOTextos recuperados da Internet por interm´edio de consultas ao Google e Yahoo s ao analisados segundo uma m´etrica simples de avaliac¸ ao de inteligibilidade textual. Tais m´etricas foram criadas para orientar a produc¸ ao textual e recentemente tamb´em foram empregadas em simplificadores textuais autom´aticos experimentais para leitores inexperientes. Nesse trabalho aplicam-se essas m´etricas a texto originais livres, recuperados da Internet, para buscar correlacionar o grau de inteligibilidade textual com a relev ancia que lhes ´e conferida pelos buscadores utilizados. A premissa inicial a estimular a comparac¸ ao entre inteligibilidade e relev ancia ´e o enunciado conhecido como Princ´ıpio de Occam, ou princ´ıpio da economia. Observa-se uma tend encia centralista que ocorre a partir do pequeno afastamento m´edio dos grupos de arquivos melhor colocados no ranking em relac¸ ao `a m´edia da categoria a que pertencem. ´E com a medida do afastamento m´edio que se consegue verificar correlac¸ ao com a posic¸ ao do arquivo no ranking e ´e tamb´em com essa medida que se consegue registrar diferenc¸as entre o m´etodo de calcular a relev ancia do Google e do Yahoo. Um experimento que decorre do primeiro estudo procura determinar se a medida de inteligibilidade pode ser empregada para auxiliar o usu´ario da Internet a escolher arquivos mais simples ou se a sua indicac¸ ao junto `a listagem de links recuperados ´e ´util e informativa para a escolha e navegac¸ ao do usu´ario. Em um experimento final, embasado no conhecimento previamente obtido, s ao comparadas as enciclop´edias Brit anica eWikip´edia por meio do emprego da m´etrica de inteligibilidade Flesch-Kincaid Grade LevelText retrieved from the Internet through Google and Yahoo queries are evaluated using Flesch-Kincaid Grade Level, a simple assessment measure of text readability. This kind of metrics were created to help writers to evaluate their text, and recently in automatic text simplification for undercapable readers. In this work we apply these metrics to documents freely retrieved from the Internet, seeking to find correlations between legibility and relevance acknowledged to then by search engines. The initial premise guiding the comparison between readability and relevance is the statement known as Occam s Principle, or Principle of Economy. This study employs Flesch-Kincaid Grade Level in text documents retrieved from the Internet through search-engines queries and correlate it with the position. It was found a centralist trend in the texts recovered. The centralist tendency mean that the average spacing of groups of files from the average of the category they belong is meaningfull. With this measure is possible to establish a correlation between relevance and legibility, and also, to detect diferences in the way both search engines derive their relevance calculation. A subsequent experiment seeks to determine whether the measure of legibility can be employed to assist him or her choosing a document combined with original search engine ranking and if it is useful as advance information for choice and user navigation. In a final experiment, based on previously obtained knowledge, a comparison between Wikipedia and Britannica encyclopedias by employing the metric of understandability Flesch-KincaidUniversidade Catolica de PelotasInformáticaBRUcpelMestrado em Ciência da ComputaçãoLoh, StanleyCPF:50073206091http://lattes.cnpq.br/4749039276717947Londero, Eduardo Bauer2016-03-22T17:26:45Z2012-09-102011-03-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfLONDERO, Eduardo Bauer. THE BEHAVIOR OF READABILITY METRICS IN DOCUMENTS RETRIEVED IN INTERNET AND ITS USE AS AN INFORMATION RETRIEVAL QUERY PARAMETER. 2011. 94 f. Dissertação (Mestrado em Informática) - Universidade Catolica de Pelotas, Pelotas, 2011.http://tede.ucpel.edu.br:8080/jspui/handle/tede/220porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do UCpelinstname:Universidade Católica de Pelotas (UCPEL)instacron:UCPEL2020-09-29T21:40:08Zoai:tede.ucpel.edu.br:tede/220Biblioteca Digital de Teses e Dissertaçõeshttp://www2.ufpel.edu.br/tede/http://tede.ucpel.edu.br:8080/oai/requestbiblioteca@ucpel.edu.br||cristiane.chim@ucpel.tche.bropendoar:2020-09-29T21:40:08Biblioteca Digital de Teses e Dissertações do UCpel - Universidade Católica de Pelotas (UCPEL)false
dc.title.none.fl_str_mv Comportamento de Metricas de Inteligibilidade Textual em Documentos Recuperados naWeb
THE BEHAVIOR OF READABILITY METRICS IN DOCUMENTS RETRIEVED IN INTERNET AND ITS USE AS AN INFORMATION RETRIEVAL QUERY PARAMETER
title Comportamento de Metricas de Inteligibilidade Textual em Documentos Recuperados naWeb
spellingShingle Comportamento de Metricas de Inteligibilidade Textual em Documentos Recuperados naWeb
Londero, Eduardo Bauer
Recuperação de Informações Textuais
Recuperação de Informaçoes Textuais na WEB
Processamento de Linguagem Natural
Google, Yahoo, Coh-Metrix, Relevance, Readability, Information Retrieval, Natural Language Processing, Flesch-KinCaid Grade Level, Wikipedia, Britannica
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Comportamento de Metricas de Inteligibilidade Textual em Documentos Recuperados naWeb
title_full Comportamento de Metricas de Inteligibilidade Textual em Documentos Recuperados naWeb
title_fullStr Comportamento de Metricas de Inteligibilidade Textual em Documentos Recuperados naWeb
title_full_unstemmed Comportamento de Metricas de Inteligibilidade Textual em Documentos Recuperados naWeb
title_sort Comportamento de Metricas de Inteligibilidade Textual em Documentos Recuperados naWeb
author Londero, Eduardo Bauer
author_facet Londero, Eduardo Bauer
author_role author
dc.contributor.none.fl_str_mv Loh, Stanley
CPF:50073206091
http://lattes.cnpq.br/4749039276717947
dc.contributor.author.fl_str_mv Londero, Eduardo Bauer
dc.subject.por.fl_str_mv Recuperação de Informações Textuais
Recuperação de Informaçoes Textuais na WEB
Processamento de Linguagem Natural
Google, Yahoo, Coh-Metrix, Relevance, Readability, Information Retrieval, Natural Language Processing, Flesch-KinCaid Grade Level, Wikipedia, Britannica
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic Recuperação de Informações Textuais
Recuperação de Informaçoes Textuais na WEB
Processamento de Linguagem Natural
Google, Yahoo, Coh-Metrix, Relevance, Readability, Information Retrieval, Natural Language Processing, Flesch-KinCaid Grade Level, Wikipedia, Britannica
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Textos recuperados da Internet por interm´edio de consultas ao Google e Yahoo s ao analisados segundo uma m´etrica simples de avaliac¸ ao de inteligibilidade textual. Tais m´etricas foram criadas para orientar a produc¸ ao textual e recentemente tamb´em foram empregadas em simplificadores textuais autom´aticos experimentais para leitores inexperientes. Nesse trabalho aplicam-se essas m´etricas a texto originais livres, recuperados da Internet, para buscar correlacionar o grau de inteligibilidade textual com a relev ancia que lhes ´e conferida pelos buscadores utilizados. A premissa inicial a estimular a comparac¸ ao entre inteligibilidade e relev ancia ´e o enunciado conhecido como Princ´ıpio de Occam, ou princ´ıpio da economia. Observa-se uma tend encia centralista que ocorre a partir do pequeno afastamento m´edio dos grupos de arquivos melhor colocados no ranking em relac¸ ao `a m´edia da categoria a que pertencem. ´E com a medida do afastamento m´edio que se consegue verificar correlac¸ ao com a posic¸ ao do arquivo no ranking e ´e tamb´em com essa medida que se consegue registrar diferenc¸as entre o m´etodo de calcular a relev ancia do Google e do Yahoo. Um experimento que decorre do primeiro estudo procura determinar se a medida de inteligibilidade pode ser empregada para auxiliar o usu´ario da Internet a escolher arquivos mais simples ou se a sua indicac¸ ao junto `a listagem de links recuperados ´e ´util e informativa para a escolha e navegac¸ ao do usu´ario. Em um experimento final, embasado no conhecimento previamente obtido, s ao comparadas as enciclop´edias Brit anica eWikip´edia por meio do emprego da m´etrica de inteligibilidade Flesch-Kincaid Grade Level
publishDate 2011
dc.date.none.fl_str_mv 2011-03-29
2012-09-10
2016-03-22T17:26:45Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv LONDERO, Eduardo Bauer. THE BEHAVIOR OF READABILITY METRICS IN DOCUMENTS RETRIEVED IN INTERNET AND ITS USE AS AN INFORMATION RETRIEVAL QUERY PARAMETER. 2011. 94 f. Dissertação (Mestrado em Informática) - Universidade Catolica de Pelotas, Pelotas, 2011.
http://tede.ucpel.edu.br:8080/jspui/handle/tede/220
identifier_str_mv LONDERO, Eduardo Bauer. THE BEHAVIOR OF READABILITY METRICS IN DOCUMENTS RETRIEVED IN INTERNET AND ITS USE AS AN INFORMATION RETRIEVAL QUERY PARAMETER. 2011. 94 f. Dissertação (Mestrado em Informática) - Universidade Catolica de Pelotas, Pelotas, 2011.
url http://tede.ucpel.edu.br:8080/jspui/handle/tede/220
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Catolica de Pelotas
Informática
BR
Ucpel
Mestrado em Ciência da Computação
publisher.none.fl_str_mv Universidade Catolica de Pelotas
Informática
BR
Ucpel
Mestrado em Ciência da Computação
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do UCpel
instname:Universidade Católica de Pelotas (UCPEL)
instacron:UCPEL
instname_str Universidade Católica de Pelotas (UCPEL)
instacron_str UCPEL
institution UCPEL
reponame_str Biblioteca Digital de Teses e Dissertações do UCpel
collection Biblioteca Digital de Teses e Dissertações do UCpel
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do UCpel - Universidade Católica de Pelotas (UCPEL)
repository.mail.fl_str_mv biblioteca@ucpel.edu.br||cristiane.chim@ucpel.tche.br
_version_ 1811734991792504832