Investigação do processo de stemming na lingua portuguesa
Autor(a) principal: | |
---|---|
Data de Publicação: | 2008 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
Texto Completo: | https://app.uff.br/riuff/handle/1/17898 |
Resumo: | The information retrieval process is a usual task for the human. However, having a complex automation. This happens because the quality of the results is often related with the degree of the user's satisfaction, a difficult parameter to measure. In general this quality is evaluated being taking into account a group of queries in a text collection, and their relevant answers. Commonly, two evaluation measures are used in this process: the first is the precision, wich represents the proportion of recovered relevant items from the total of recovered items; and the second is the recall, wich represents the proportion of recovered relevant items from the total of relevant items of the collection. One of the challenges is to find efficient forms to represent the documents, in order to avoid ambiguity. An alternative to solve this problem consists of obtaining a unique representation for words that appear for a same concept. This task can be defined as stemming. Many times, the stemming process is dependent to the morphologic structure of the target language. For the Portuguese language, there were found few solutions to assist the demand for these algorithms. The morphologic complexity of Portuguese language, and the few stemming solutions found for this language, were the motivation for the research shown in this work. This work presents a new model for the stemming process, that is applicable to the Portuguese language, based on a statistical study accomplished in a collection of extracted words of the Brazilian Web. With objective of evaluating the model, a stemmer is implemented and compared with a solution found in the literature, especially developed for Portuguese. The main contributions of this work are the systematical model for the stemming process, besides the stemmer conceived and implemented specially for the Portuguese language. |
id |
UFF-2_8c42f07ec44877a9028ea06730a083f1 |
---|---|
oai_identifier_str |
oai:app.uff.br:1/17898 |
network_acronym_str |
UFF-2 |
network_name_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository_id_str |
2120 |
spelling |
Investigação do processo de stemming na lingua portuguesaStemming process investigation for the portuguese languageCiência da computaçãoAlgoritmoRecuperação da informaçãoProcesso de mineração de dadosRecuperação de dados (Computação)Mineração de textoBanco de DadosKDDinteligência artificialAlgoritmos de stemmingProcessamento de linguagem naturalCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAOThe information retrieval process is a usual task for the human. However, having a complex automation. This happens because the quality of the results is often related with the degree of the user's satisfaction, a difficult parameter to measure. In general this quality is evaluated being taking into account a group of queries in a text collection, and their relevant answers. Commonly, two evaluation measures are used in this process: the first is the precision, wich represents the proportion of recovered relevant items from the total of recovered items; and the second is the recall, wich represents the proportion of recovered relevant items from the total of relevant items of the collection. One of the challenges is to find efficient forms to represent the documents, in order to avoid ambiguity. An alternative to solve this problem consists of obtaining a unique representation for words that appear for a same concept. This task can be defined as stemming. Many times, the stemming process is dependent to the morphologic structure of the target language. For the Portuguese language, there were found few solutions to assist the demand for these algorithms. The morphologic complexity of Portuguese language, and the few stemming solutions found for this language, were the motivation for the research shown in this work. This work presents a new model for the stemming process, that is applicable to the Portuguese language, based on a statistical study accomplished in a collection of extracted words of the Brazilian Web. With objective of evaluating the model, a stemmer is implemented and compared with a solution found in the literature, especially developed for Portuguese. The main contributions of this work are the systematical model for the stemming process, besides the stemmer conceived and implemented specially for the Portuguese language.O processo de busca e recuperação de informação é uma tarefa rotineira do ser humano, no entanto, de complexa automatização. Isto ocorre pois a qualidade dos resultados é muitas vezes relacionada com o grau de satisfação do usuário, um parâmetro de difícil mensuração. Em geral esta qualidade é avaliada levando-se em consideração um conjunto de consultas realizadas em uma coleção de textos, e as respostas relevantes obtidas. Comumente, duas medidas de avaliação são utilizadas neste processo: precision, que representa a proporção de itens relevantes recuperados do total de itens recuperados; e recall, que representa a proporção de itens relevantes recuperados do total de itens relevantes da coleção. Para isso, um dos desafios é encontrar formas eficientes para representar os documentos, de maneira a evitar ambigüidade. Uma alternativa para resolver este problema consiste em obter uma representação única para palavras que apontem para um mesmo conceito. Esta tarefa pode ser definida como stemming. O processo de stemming muitas vezes é atrelado à estrutura morfológica do idioma onde é utilizado. Em se tratando da língua portuguesa, foram encontradas poucas soluções para atender a demanda por esses tipos de algoritmos. A complexidade morfológica da língua portuguesa e as poucas soluções de stemming encontradas para este idioma, serviram como motivação para o desenvolvimento desta dissertação. Este trabalho apresenta um modelo para algoritmos de stemming, aplicável à língua portuguesa, baseado num estudo estatístico realizado em uma coleção de palavras extraídas da Web brasileira. Com objetivo de avaliar o modelo, um stemmer é implementado e comparado com uma solução encontrada na literatura, especialmente desenvolvida para este idioma. As principais contribuições deste trabalho são o modelo sistemático para o processo de stemming, além do stemmer concebido e implementado especialmente para a língua portuguesa.Programa de Pós-Graduação em ComputaçãoComputaçãoGarcia, Ana Cristina BicharraCPF:31237899422http://lattes.cnpq.br/4879977915136752Rezende, Solange OliveiraCPF:29523433222http://lattes.cnpq.brSoto, Miguel PariCPF:22264323422http://lattes.cnpq.br/1534009365844020Alvares, Reinaldo Viana2021-03-10T20:43:03Z2008-06-162021-03-10T20:43:03Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://app.uff.br/riuff/handle/1/17898porCC-BY-SAinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2021-03-10T20:43:03Zoai:app.uff.br:1/17898Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202021-03-10T20:43:03Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false |
dc.title.none.fl_str_mv |
Investigação do processo de stemming na lingua portuguesa Stemming process investigation for the portuguese language |
title |
Investigação do processo de stemming na lingua portuguesa |
spellingShingle |
Investigação do processo de stemming na lingua portuguesa Alvares, Reinaldo Viana Ciência da computação Algoritmo Recuperação da informação Processo de mineração de dados Recuperação de dados (Computação) Mineração de texto Banco de Dados KDD inteligência artificial Algoritmos de stemming Processamento de linguagem natural CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAO |
title_short |
Investigação do processo de stemming na lingua portuguesa |
title_full |
Investigação do processo de stemming na lingua portuguesa |
title_fullStr |
Investigação do processo de stemming na lingua portuguesa |
title_full_unstemmed |
Investigação do processo de stemming na lingua portuguesa |
title_sort |
Investigação do processo de stemming na lingua portuguesa |
author |
Alvares, Reinaldo Viana |
author_facet |
Alvares, Reinaldo Viana |
author_role |
author |
dc.contributor.none.fl_str_mv |
Garcia, Ana Cristina Bicharra CPF:31237899422 http://lattes.cnpq.br/4879977915136752 Rezende, Solange Oliveira CPF:29523433222 http://lattes.cnpq.br Soto, Miguel Pari CPF:22264323422 http://lattes.cnpq.br/1534009365844020 |
dc.contributor.author.fl_str_mv |
Alvares, Reinaldo Viana |
dc.subject.por.fl_str_mv |
Ciência da computação Algoritmo Recuperação da informação Processo de mineração de dados Recuperação de dados (Computação) Mineração de texto Banco de Dados KDD inteligência artificial Algoritmos de stemming Processamento de linguagem natural CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAO |
topic |
Ciência da computação Algoritmo Recuperação da informação Processo de mineração de dados Recuperação de dados (Computação) Mineração de texto Banco de Dados KDD inteligência artificial Algoritmos de stemming Processamento de linguagem natural CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAO |
description |
The information retrieval process is a usual task for the human. However, having a complex automation. This happens because the quality of the results is often related with the degree of the user's satisfaction, a difficult parameter to measure. In general this quality is evaluated being taking into account a group of queries in a text collection, and their relevant answers. Commonly, two evaluation measures are used in this process: the first is the precision, wich represents the proportion of recovered relevant items from the total of recovered items; and the second is the recall, wich represents the proportion of recovered relevant items from the total of relevant items of the collection. One of the challenges is to find efficient forms to represent the documents, in order to avoid ambiguity. An alternative to solve this problem consists of obtaining a unique representation for words that appear for a same concept. This task can be defined as stemming. Many times, the stemming process is dependent to the morphologic structure of the target language. For the Portuguese language, there were found few solutions to assist the demand for these algorithms. The morphologic complexity of Portuguese language, and the few stemming solutions found for this language, were the motivation for the research shown in this work. This work presents a new model for the stemming process, that is applicable to the Portuguese language, based on a statistical study accomplished in a collection of extracted words of the Brazilian Web. With objective of evaluating the model, a stemmer is implemented and compared with a solution found in the literature, especially developed for Portuguese. The main contributions of this work are the systematical model for the stemming process, besides the stemmer conceived and implemented specially for the Portuguese language. |
publishDate |
2008 |
dc.date.none.fl_str_mv |
2008-06-16 2021-03-10T20:43:03Z 2021-03-10T20:43:03Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://app.uff.br/riuff/handle/1/17898 |
url |
https://app.uff.br/riuff/handle/1/17898 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
CC-BY-SA info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
CC-BY-SA |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Programa de Pós-Graduação em Computação Computação |
publisher.none.fl_str_mv |
Programa de Pós-Graduação em Computação Computação |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF) instname:Universidade Federal Fluminense (UFF) instacron:UFF |
instname_str |
Universidade Federal Fluminense (UFF) |
instacron_str |
UFF |
institution |
UFF |
reponame_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
collection |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF) |
repository.mail.fl_str_mv |
riuff@id.uff.br |
_version_ |
1807838908058173440 |