Avaliando o impacto da qualidade de um algoritmo de stemming na recuperação de informações

Detalhes bibliográficos
Autor(a) principal: Flores, Felipe Nunes
Data de Publicação: 2009
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/18532
Resumo: A qualidade de um algoritmo de stemming é tipicamente medida de duas formas: (i) quão corretamente o algoritmo mapeia as diferentes formas de uma palavra para o mesmo stem; ou (ii) qual o nível de melhora que o algoritmo proporciona à Recuperação de Informações. O presente trabalho apresenta o desenvolvimento de uma ferramenta que implementa o método de Paice, o qual serve para avaliar os algoritmos de stemming de acordo com a primeira métrica mencionada acima. Além disso, diversos algoritmos de stemming para a língua portuguesa são avaliados de acordo com as duas métricas, a fim de verificar se os stemmers de maior qualidade são também aqueles que trazem o maior ganho para a Recuperação de Informações. Os resultados mostram que essa relação existe, porém ela não é tão forte quanto se poderia esperar.
id UFRGS-2_fc6dc2bfe93b8d6f8a9b56408eeb7ebc
oai_identifier_str oai:www.lume.ufrgs.br:10183/18532
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Flores, Felipe NunesMoreira, Viviane PereiraHeuser, Carlos Alberto2010-02-19T04:14:43Z2009http://hdl.handle.net/10183/18532000730582A qualidade de um algoritmo de stemming é tipicamente medida de duas formas: (i) quão corretamente o algoritmo mapeia as diferentes formas de uma palavra para o mesmo stem; ou (ii) qual o nível de melhora que o algoritmo proporciona à Recuperação de Informações. O presente trabalho apresenta o desenvolvimento de uma ferramenta que implementa o método de Paice, o qual serve para avaliar os algoritmos de stemming de acordo com a primeira métrica mencionada acima. Além disso, diversos algoritmos de stemming para a língua portuguesa são avaliados de acordo com as duas métricas, a fim de verificar se os stemmers de maior qualidade são também aqueles que trazem o maior ganho para a Recuperação de Informações. Os resultados mostram que essa relação existe, porém ela não é tão forte quanto se poderia esperar.The quality of a stemming algorithm is typically measured in two ways: (i) how accurately the algorithm maps the different forms of a word to the same stem; or (ii) the level of improvement that the algorithm provides to Information Retrieval. This paper presents a tool that implements Paice’s method, whose purpose is to evaluate stemming algorithms according to the first metric mentioned above. Besides, different Portuguese stemming algorithms are evaluated according to both metrics, in order to assess whether the most accurate stemmers are also the ones that bring the most gain to Information Retrieval. The results show that this relation does exist, but it is not as strong as one might have expected.application/pdfporStemmerRecuperacao : InformacaoStemmingPaice’s methodInformation retrievalEvaluationAvaliando o impacto da qualidade de um algoritmo de stemming na recuperação de informaçõesAssessing the impact of a stemming algorithm’s accuracy on information retrieval info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2009Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT000730582.pdf.txt000730582.pdf.txtExtracted Texttext/plain81993http://www.lume.ufrgs.br/bitstream/10183/18532/2/000730582.pdf.txtf4aedc754b12b39b0ca954326d9cb142MD52ORIGINAL000730582.pdf000730582.pdfTexto completoapplication/pdf414949http://www.lume.ufrgs.br/bitstream/10183/18532/1/000730582.pdf5265f616a0321bf054f1ad8565082714MD51THUMBNAIL000730582.pdf.jpg000730582.pdf.jpgGenerated Thumbnailimage/jpeg1066http://www.lume.ufrgs.br/bitstream/10183/18532/3/000730582.pdf.jpge87322502a8aa4450b02a2d7505904c1MD5310183/185322018-10-17 08:38:27.202oai:www.lume.ufrgs.br:10183/18532Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2018-10-17T11:38:27Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Avaliando o impacto da qualidade de um algoritmo de stemming na recuperação de informações
dc.title.alternative.en.fl_str_mv Assessing the impact of a stemming algorithm’s accuracy on information retrieval
title Avaliando o impacto da qualidade de um algoritmo de stemming na recuperação de informações
spellingShingle Avaliando o impacto da qualidade de um algoritmo de stemming na recuperação de informações
Flores, Felipe Nunes
Stemmer
Recuperacao : Informacao
Stemming
Paice’s method
Information retrieval
Evaluation
title_short Avaliando o impacto da qualidade de um algoritmo de stemming na recuperação de informações
title_full Avaliando o impacto da qualidade de um algoritmo de stemming na recuperação de informações
title_fullStr Avaliando o impacto da qualidade de um algoritmo de stemming na recuperação de informações
title_full_unstemmed Avaliando o impacto da qualidade de um algoritmo de stemming na recuperação de informações
title_sort Avaliando o impacto da qualidade de um algoritmo de stemming na recuperação de informações
author Flores, Felipe Nunes
author_facet Flores, Felipe Nunes
author_role author
dc.contributor.author.fl_str_mv Flores, Felipe Nunes
dc.contributor.advisor1.fl_str_mv Moreira, Viviane Pereira
dc.contributor.advisor-co1.fl_str_mv Heuser, Carlos Alberto
contributor_str_mv Moreira, Viviane Pereira
Heuser, Carlos Alberto
dc.subject.por.fl_str_mv Stemmer
Recuperacao : Informacao
topic Stemmer
Recuperacao : Informacao
Stemming
Paice’s method
Information retrieval
Evaluation
dc.subject.eng.fl_str_mv Stemming
Paice’s method
Information retrieval
Evaluation
description A qualidade de um algoritmo de stemming é tipicamente medida de duas formas: (i) quão corretamente o algoritmo mapeia as diferentes formas de uma palavra para o mesmo stem; ou (ii) qual o nível de melhora que o algoritmo proporciona à Recuperação de Informações. O presente trabalho apresenta o desenvolvimento de uma ferramenta que implementa o método de Paice, o qual serve para avaliar os algoritmos de stemming de acordo com a primeira métrica mencionada acima. Além disso, diversos algoritmos de stemming para a língua portuguesa são avaliados de acordo com as duas métricas, a fim de verificar se os stemmers de maior qualidade são também aqueles que trazem o maior ganho para a Recuperação de Informações. Os resultados mostram que essa relação existe, porém ela não é tão forte quanto se poderia esperar.
publishDate 2009
dc.date.issued.fl_str_mv 2009
dc.date.accessioned.fl_str_mv 2010-02-19T04:14:43Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/18532
dc.identifier.nrb.pt_BR.fl_str_mv 000730582
url http://hdl.handle.net/10183/18532
identifier_str_mv 000730582
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/18532/2/000730582.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/18532/1/000730582.pdf
http://www.lume.ufrgs.br/bitstream/10183/18532/3/000730582.pdf.jpg
bitstream.checksum.fl_str_mv f4aedc754b12b39b0ca954326d9cb142
5265f616a0321bf054f1ad8565082714
e87322502a8aa4450b02a2d7505904c1
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1815447034316980224