Aprendizagem estatística para recuperação da informação

Detalhes bibliográficos
Autor(a) principal: Rodrigues, Edmilson Faria
Data de Publicação: 2008
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UnB
Texto Completo: http://repositorio.unb.br/handle/10482/2399
Resumo: Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2008.
id UNB_2055ec34f9518f310b2596bb2cc4c482
oai_identifier_str oai:repositorio.unb.br:10482/2399
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling Aprendizagem estatística para recuperação da informaçãoRecuperação da informaçãoSistemas de recuperação da informaçãoTratamento estatístico da linguagemDissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2008.A recuperação da informação pode ser entendida como uma área da ciência que se dedica ao estudo de técnicas de armazenamento de documentos e de recuperação de informação neles contidas, utilizando ou não metadados que os descrevem. Nos dias atuais em que as ferramentas de busca na Internet tornaram possível pesquisar documentos produzidos pelo mundo inteiro, o acesso à informação relevante torna a precisão na recuperação da informação uma demanda que ganha cada vez mais importância. Da necessidade do Tribunal de Contas da União de melhorar os resultados da precisão e da revocação da sua pesquisa textual jurisprudencial nasceu a motivação para o presente trabalho. A precisão é o percentual de documentos relevantes em relação ao número de documentos retornados na consulta [Kent et al., 1955]. A revocação é o percentual de documentos relevantes em relação ao número de documentos relevantes do corpus de documentos [Kent et al., 1955]. Os mecanismos de recuperação da informação devem ser capazes de auxiliar o usuário que, em geral, não tem conhecimento da forma exata em que ocorrem os termos nos documentos que contém a informação que procura. Um esforço que tem sido feito no sentido de contornar esse problema é a utilização de ontologias ou tesauros para ampliar a consulta solicitada pelo usuário [Miller, 1990]. No entanto, essa alternativa envolve um esforço em recursos humanos, financeiro e tempo muito grande para a construção dessas estruturas. Nessa pesquisa é proposta a utilização de um modelo estatístico da linguagem, derivado da tradução estatística da linguagem [Brown et al.,1993], para ampliar a consulta solicitada pelo usuário. Nessa abordagem é utilizado um algoritmo de EM (do inglês, Expectation Maximization) [Dempster, Laird & Rubin, 1977] para estimar índices de similaridades entre termos dos documentos. Nesta abordagem, cada consulta retorna os documentos contendo os termos nela contidos e os termos que são similares àqueles. Com essa metodologia, espera-se melhorar a precisão sem reduzir a revocação. Para permitir uma avaliação experimental com corpus com milhares de documentos, o algoritmo EM foi alterado para permitir a manipulação de matrizes esparsas e gerência de memória virtual. Foram introduzidas alterações na ferramenta aberta de recuperação de informação Terrier [Ounis et al. 2006] visando permitir que a indexação e recuperação considerem similaridades. Os experimentos realizados consideram corpora em língua inglesa (Medline e CFC) para permitir utilizar a metodologia de avaliação da TREC (Text Retrieval Conference). Foram também realizados experimentos em língua portuguesa (corpus CETEN-Folha) mas para eles não foi possível aplicar a metodologia de avaliação internacional. Os resultados obtidos até o momento são iniciais e não permitem afirmar que a utilização da metodologia proposta no sistema de recuperação de textos do TCU possa superar o desempenho do sistema atual. No entanto, espera-se uma melhora potencial visto que os resultados obtidos com os corpora da TREC são relativamente próximos aos obtidos com os melhores algoritmos de recuperação implementados no Terrier. _______________________________________________________________________________ ABSTRACTInformation retrieval(IR) is the science of searching for information in documents, searching for documents themselves, searching for metadata which describe documents, or searching within databases. Nowadays, when search engines make worldwide browsing an ubiquitous activity, there is a growing demand for precise information retrieval. The motivation for the present work results from the Brazilian Court of Audit (from portuguese, TCU) requirements for achieving better results in terms of precision and recall of its information retrieval systems. Precision is measured as the fraction of documents retrieved that are relevant to the user's information need [Kent et al., 1955]. Recall is the fraction of documents that are relevant to the query that are successfully retrieved [Kent et al., 1955]. The retrieval mechanisms of information retrieval must be able to support the user that, in general, doesn't know the exact word used in relevant documents to express the information needed. The use of an ontology such as WordNet [Miller, 1990] is a popular approach for addressing this issue. However, this approach implies in a huge effort by human specialists to build these structures. In the present survey, our approach is the use of an language model derived from statistical machine translation [Brown et al., 1993] to expand the user's queries. We use Expectation Maximization algorithm [Dempster, Laird & Rubin, 1977] to estimate the similarities between terms within the documents. In this approach , each query retrieves not only the documents that contain the terms of the query but also the terms that are similar to them. With this methodology we hope to increase precision without decreasing recall. To Allow for experimental evaluation on a corpus with thousands of documents, the EM algorithm was modified to allow the handling of sparse matrix and virtual memory management. The open platform fo Information Retrieval, Terrier [Ounis at al. 2006], was modified in order to enable similaritires to be handled by the indexing and retrieval modules. The accomplished experiments used corpora in english language (Medline and CFC) to allow the application of TREC international evaluation methodology. The results achieved so far are preliminary and cannot yet support the claim of having provide substantial improvements to the TCU's information retrieval systems. Nevertheless, we hope a substantial improvement on these systems as far as the results obtained so far with TREC english corpora are comparable to those obtained with the state-of-the-art theoretically-founded models for IR that Terrier implements.Ladeira, MarceloRodrigues, Edmilson Faria2009-12-01T14:46:14Z2009-12-01T14:46:14Z2009-12-012008-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfRODRIGUES, Edmilson Faria. Aprendizagem estatística para recuperação da informação. 2008. 63 f. Dissertação (Mestrado em Informática)-Universidade de Brasília, Brasília, 2008.http://repositorio.unb.br/handle/10482/2399info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2023-07-14T18:56:23Zoai:repositorio.unb.br:10482/2399Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2023-07-14T18:56:23Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv Aprendizagem estatística para recuperação da informação
title Aprendizagem estatística para recuperação da informação
spellingShingle Aprendizagem estatística para recuperação da informação
Rodrigues, Edmilson Faria
Recuperação da informação
Sistemas de recuperação da informação
Tratamento estatístico da linguagem
title_short Aprendizagem estatística para recuperação da informação
title_full Aprendizagem estatística para recuperação da informação
title_fullStr Aprendizagem estatística para recuperação da informação
title_full_unstemmed Aprendizagem estatística para recuperação da informação
title_sort Aprendizagem estatística para recuperação da informação
author Rodrigues, Edmilson Faria
author_facet Rodrigues, Edmilson Faria
author_role author
dc.contributor.none.fl_str_mv Ladeira, Marcelo
dc.contributor.author.fl_str_mv Rodrigues, Edmilson Faria
dc.subject.por.fl_str_mv Recuperação da informação
Sistemas de recuperação da informação
Tratamento estatístico da linguagem
topic Recuperação da informação
Sistemas de recuperação da informação
Tratamento estatístico da linguagem
description Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2008.
publishDate 2008
dc.date.none.fl_str_mv 2008-02
2009-12-01T14:46:14Z
2009-12-01T14:46:14Z
2009-12-01
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv RODRIGUES, Edmilson Faria. Aprendizagem estatística para recuperação da informação. 2008. 63 f. Dissertação (Mestrado em Informática)-Universidade de Brasília, Brasília, 2008.
http://repositorio.unb.br/handle/10482/2399
identifier_str_mv RODRIGUES, Edmilson Faria. Aprendizagem estatística para recuperação da informação. 2008. 63 f. Dissertação (Mestrado em Informática)-Universidade de Brasília, Brasília, 2008.
url http://repositorio.unb.br/handle/10482/2399
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv repositorio@unb.br
_version_ 1810580843395022848