Avaliando o impacto da qualidade de um algoritmo de stemming na recuperação de informações
Autor(a) principal: | |
---|---|
Data de Publicação: | 2009 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/18532 |
Resumo: | A qualidade de um algoritmo de stemming é tipicamente medida de duas formas: (i) quão corretamente o algoritmo mapeia as diferentes formas de uma palavra para o mesmo stem; ou (ii) qual o nível de melhora que o algoritmo proporciona à Recuperação de Informações. O presente trabalho apresenta o desenvolvimento de uma ferramenta que implementa o método de Paice, o qual serve para avaliar os algoritmos de stemming de acordo com a primeira métrica mencionada acima. Além disso, diversos algoritmos de stemming para a língua portuguesa são avaliados de acordo com as duas métricas, a fim de verificar se os stemmers de maior qualidade são também aqueles que trazem o maior ganho para a Recuperação de Informações. Os resultados mostram que essa relação existe, porém ela não é tão forte quanto se poderia esperar. |
id |
UFRGS-2_fc6dc2bfe93b8d6f8a9b56408eeb7ebc |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/18532 |
network_acronym_str |
UFRGS-2 |
network_name_str |
Repositório Institucional da UFRGS |
repository_id_str |
|
spelling |
Flores, Felipe NunesMoreira, Viviane PereiraHeuser, Carlos Alberto2010-02-19T04:14:43Z2009http://hdl.handle.net/10183/18532000730582A qualidade de um algoritmo de stemming é tipicamente medida de duas formas: (i) quão corretamente o algoritmo mapeia as diferentes formas de uma palavra para o mesmo stem; ou (ii) qual o nível de melhora que o algoritmo proporciona à Recuperação de Informações. O presente trabalho apresenta o desenvolvimento de uma ferramenta que implementa o método de Paice, o qual serve para avaliar os algoritmos de stemming de acordo com a primeira métrica mencionada acima. Além disso, diversos algoritmos de stemming para a língua portuguesa são avaliados de acordo com as duas métricas, a fim de verificar se os stemmers de maior qualidade são também aqueles que trazem o maior ganho para a Recuperação de Informações. Os resultados mostram que essa relação existe, porém ela não é tão forte quanto se poderia esperar.The quality of a stemming algorithm is typically measured in two ways: (i) how accurately the algorithm maps the different forms of a word to the same stem; or (ii) the level of improvement that the algorithm provides to Information Retrieval. This paper presents a tool that implements Paice’s method, whose purpose is to evaluate stemming algorithms according to the first metric mentioned above. Besides, different Portuguese stemming algorithms are evaluated according to both metrics, in order to assess whether the most accurate stemmers are also the ones that bring the most gain to Information Retrieval. The results show that this relation does exist, but it is not as strong as one might have expected.application/pdfporStemmerRecuperacao : InformacaoStemmingPaice’s methodInformation retrievalEvaluationAvaliando o impacto da qualidade de um algoritmo de stemming na recuperação de informaçõesAssessing the impact of a stemming algorithm’s accuracy on information retrieval info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2009Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT000730582.pdf.txt000730582.pdf.txtExtracted Texttext/plain81993http://www.lume.ufrgs.br/bitstream/10183/18532/2/000730582.pdf.txtf4aedc754b12b39b0ca954326d9cb142MD52ORIGINAL000730582.pdf000730582.pdfTexto completoapplication/pdf414949http://www.lume.ufrgs.br/bitstream/10183/18532/1/000730582.pdf5265f616a0321bf054f1ad8565082714MD51THUMBNAIL000730582.pdf.jpg000730582.pdf.jpgGenerated Thumbnailimage/jpeg1066http://www.lume.ufrgs.br/bitstream/10183/18532/3/000730582.pdf.jpge87322502a8aa4450b02a2d7505904c1MD5310183/185322018-10-17 08:38:27.202oai:www.lume.ufrgs.br:10183/18532Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2018-10-17T11:38:27Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Avaliando o impacto da qualidade de um algoritmo de stemming na recuperação de informações |
dc.title.alternative.en.fl_str_mv |
Assessing the impact of a stemming algorithm’s accuracy on information retrieval |
title |
Avaliando o impacto da qualidade de um algoritmo de stemming na recuperação de informações |
spellingShingle |
Avaliando o impacto da qualidade de um algoritmo de stemming na recuperação de informações Flores, Felipe Nunes Stemmer Recuperacao : Informacao Stemming Paice’s method Information retrieval Evaluation |
title_short |
Avaliando o impacto da qualidade de um algoritmo de stemming na recuperação de informações |
title_full |
Avaliando o impacto da qualidade de um algoritmo de stemming na recuperação de informações |
title_fullStr |
Avaliando o impacto da qualidade de um algoritmo de stemming na recuperação de informações |
title_full_unstemmed |
Avaliando o impacto da qualidade de um algoritmo de stemming na recuperação de informações |
title_sort |
Avaliando o impacto da qualidade de um algoritmo de stemming na recuperação de informações |
author |
Flores, Felipe Nunes |
author_facet |
Flores, Felipe Nunes |
author_role |
author |
dc.contributor.author.fl_str_mv |
Flores, Felipe Nunes |
dc.contributor.advisor1.fl_str_mv |
Moreira, Viviane Pereira |
dc.contributor.advisor-co1.fl_str_mv |
Heuser, Carlos Alberto |
contributor_str_mv |
Moreira, Viviane Pereira Heuser, Carlos Alberto |
dc.subject.por.fl_str_mv |
Stemmer Recuperacao : Informacao |
topic |
Stemmer Recuperacao : Informacao Stemming Paice’s method Information retrieval Evaluation |
dc.subject.eng.fl_str_mv |
Stemming Paice’s method Information retrieval Evaluation |
description |
A qualidade de um algoritmo de stemming é tipicamente medida de duas formas: (i) quão corretamente o algoritmo mapeia as diferentes formas de uma palavra para o mesmo stem; ou (ii) qual o nível de melhora que o algoritmo proporciona à Recuperação de Informações. O presente trabalho apresenta o desenvolvimento de uma ferramenta que implementa o método de Paice, o qual serve para avaliar os algoritmos de stemming de acordo com a primeira métrica mencionada acima. Além disso, diversos algoritmos de stemming para a língua portuguesa são avaliados de acordo com as duas métricas, a fim de verificar se os stemmers de maior qualidade são também aqueles que trazem o maior ganho para a Recuperação de Informações. Os resultados mostram que essa relação existe, porém ela não é tão forte quanto se poderia esperar. |
publishDate |
2009 |
dc.date.issued.fl_str_mv |
2009 |
dc.date.accessioned.fl_str_mv |
2010-02-19T04:14:43Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/18532 |
dc.identifier.nrb.pt_BR.fl_str_mv |
000730582 |
url |
http://hdl.handle.net/10183/18532 |
identifier_str_mv |
000730582 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Repositório Institucional da UFRGS |
collection |
Repositório Institucional da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/18532/2/000730582.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/18532/1/000730582.pdf http://www.lume.ufrgs.br/bitstream/10183/18532/3/000730582.pdf.jpg |
bitstream.checksum.fl_str_mv |
f4aedc754b12b39b0ca954326d9cb142 5265f616a0321bf054f1ad8565082714 e87322502a8aa4450b02a2d7505904c1 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
|
_version_ |
1815447034316980224 |