Termos e relacionamentos em evidência na recuperação de informação

Detalhes bibliográficos
Autor(a) principal: Gonzalez, Marco Antonio Insaurriaga
Data de Publicação: 2005
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/5962
Resumo: Muitas abordagens para recuperação de informação (RI) assumem duas hipóteses: (i) cada termo de um documento é estatisticamente independente de todos os outros termos no texto, e (ii) métodos lingüísticos são de difícil aplicação nesta área. Contudo, há regularidades lingüísticas, produzidas pelas dependências entre termos, que precisam ser consideradas quando um texto é representado, e a representação de textos é crucial para aplicações que utilizam processamento da linguagem natural, como a RI. Um texto é mais do que uma simples seqüência de caracteres ou palavras. As palavras apresentam características morfológicas e relações de coesão que não podem ser esquecidas na descrição dos conceitos presentes no texto. Nesse sentido, um novo modelo com dependência de termos para a RI, denominado TR+, é proposto. Ele inclui: (i) nominalização, como processo de normalização lexical, e identificação de relações lexicais binárias (RLBs) e (ii) novas fórmulas para cálculo do peso das unidades de indexação (descritores). Essas fórmulas se baseiam no conceito de evidência, que leva em conta, além da freqüência de ocorrência, os mecanismos de coesão do texto. O modelo também inclui operadores Booleanos na consulta, para complementar a especificação da dependência de termos. Avaliações experimentais foram realizadas para demonstrar que (i) a nominalização apresenta melhores resultados em relação aos processos de normalização lexical usuais, (ii) a aquisição de informação lingüística, através de RLBs, e o uso de consultas Booleanas contribuem para a especificação de dependência de termos, e (iii) o cálculo da representatividade dos descritores baseado em evidência apresenta vantagens em relação ao cálculo baseado em freqüência de ocorrência. Os experimentos relatados indicam que esses recursos melhoram os resultados de sistemas de RI.
id URGS_85ae8404e68a7c4a75008bb47173e7af
oai_identifier_str oai:www.lume.ufrgs.br:10183/5962
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Gonzalez, Marco Antonio InsaurriagaLima, Jose Valdeni deLima, Vera Lucia Strube de2007-06-06T18:51:25Z2005http://hdl.handle.net/10183/5962000478320Muitas abordagens para recuperação de informação (RI) assumem duas hipóteses: (i) cada termo de um documento é estatisticamente independente de todos os outros termos no texto, e (ii) métodos lingüísticos são de difícil aplicação nesta área. Contudo, há regularidades lingüísticas, produzidas pelas dependências entre termos, que precisam ser consideradas quando um texto é representado, e a representação de textos é crucial para aplicações que utilizam processamento da linguagem natural, como a RI. Um texto é mais do que uma simples seqüência de caracteres ou palavras. As palavras apresentam características morfológicas e relações de coesão que não podem ser esquecidas na descrição dos conceitos presentes no texto. Nesse sentido, um novo modelo com dependência de termos para a RI, denominado TR+, é proposto. Ele inclui: (i) nominalização, como processo de normalização lexical, e identificação de relações lexicais binárias (RLBs) e (ii) novas fórmulas para cálculo do peso das unidades de indexação (descritores). Essas fórmulas se baseiam no conceito de evidência, que leva em conta, além da freqüência de ocorrência, os mecanismos de coesão do texto. O modelo também inclui operadores Booleanos na consulta, para complementar a especificação da dependência de termos. Avaliações experimentais foram realizadas para demonstrar que (i) a nominalização apresenta melhores resultados em relação aos processos de normalização lexical usuais, (ii) a aquisição de informação lingüística, através de RLBs, e o uso de consultas Booleanas contribuem para a especificação de dependência de termos, e (iii) o cálculo da representatividade dos descritores baseado em evidência apresenta vantagens em relação ao cálculo baseado em freqüência de ocorrência. Os experimentos relatados indicam que esses recursos melhoram os resultados de sistemas de RI.application/pdfporArmazenamento : DadosRecuperacao : InformacaoTermos e relacionamentos em evidência na recuperação de informaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2005doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000478320.pdf000478320.pdfTexto completoapplication/pdf1123743http://www.lume.ufrgs.br/bitstream/10183/5962/1/000478320.pdf6781877f1d3cfd609bcad8f75f05ac6aMD51TEXT000478320.pdf.txt000478320.pdf.txtExtracted Texttext/plain558619http://www.lume.ufrgs.br/bitstream/10183/5962/2/000478320.pdf.txtb62296921615bc3593a19d08b8e1af70MD52THUMBNAIL000478320.pdf.jpg000478320.pdf.jpgGenerated Thumbnailimage/jpeg1154http://www.lume.ufrgs.br/bitstream/10183/5962/3/000478320.pdf.jpg53b5d71931baea5fb00ee8ce5cc45c93MD5310183/59622018-10-09 09:28:45.317oai:www.lume.ufrgs.br:10183/5962Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532018-10-09T12:28:45Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Termos e relacionamentos em evidência na recuperação de informação
title Termos e relacionamentos em evidência na recuperação de informação
spellingShingle Termos e relacionamentos em evidência na recuperação de informação
Gonzalez, Marco Antonio Insaurriaga
Armazenamento : Dados
Recuperacao : Informacao
title_short Termos e relacionamentos em evidência na recuperação de informação
title_full Termos e relacionamentos em evidência na recuperação de informação
title_fullStr Termos e relacionamentos em evidência na recuperação de informação
title_full_unstemmed Termos e relacionamentos em evidência na recuperação de informação
title_sort Termos e relacionamentos em evidência na recuperação de informação
author Gonzalez, Marco Antonio Insaurriaga
author_facet Gonzalez, Marco Antonio Insaurriaga
author_role author
dc.contributor.author.fl_str_mv Gonzalez, Marco Antonio Insaurriaga
dc.contributor.advisor1.fl_str_mv Lima, Jose Valdeni de
dc.contributor.advisor-co1.fl_str_mv Lima, Vera Lucia Strube de
contributor_str_mv Lima, Jose Valdeni de
Lima, Vera Lucia Strube de
dc.subject.por.fl_str_mv Armazenamento : Dados
Recuperacao : Informacao
topic Armazenamento : Dados
Recuperacao : Informacao
description Muitas abordagens para recuperação de informação (RI) assumem duas hipóteses: (i) cada termo de um documento é estatisticamente independente de todos os outros termos no texto, e (ii) métodos lingüísticos são de difícil aplicação nesta área. Contudo, há regularidades lingüísticas, produzidas pelas dependências entre termos, que precisam ser consideradas quando um texto é representado, e a representação de textos é crucial para aplicações que utilizam processamento da linguagem natural, como a RI. Um texto é mais do que uma simples seqüência de caracteres ou palavras. As palavras apresentam características morfológicas e relações de coesão que não podem ser esquecidas na descrição dos conceitos presentes no texto. Nesse sentido, um novo modelo com dependência de termos para a RI, denominado TR+, é proposto. Ele inclui: (i) nominalização, como processo de normalização lexical, e identificação de relações lexicais binárias (RLBs) e (ii) novas fórmulas para cálculo do peso das unidades de indexação (descritores). Essas fórmulas se baseiam no conceito de evidência, que leva em conta, além da freqüência de ocorrência, os mecanismos de coesão do texto. O modelo também inclui operadores Booleanos na consulta, para complementar a especificação da dependência de termos. Avaliações experimentais foram realizadas para demonstrar que (i) a nominalização apresenta melhores resultados em relação aos processos de normalização lexical usuais, (ii) a aquisição de informação lingüística, através de RLBs, e o uso de consultas Booleanas contribuem para a especificação de dependência de termos, e (iii) o cálculo da representatividade dos descritores baseado em evidência apresenta vantagens em relação ao cálculo baseado em freqüência de ocorrência. Os experimentos relatados indicam que esses recursos melhoram os resultados de sistemas de RI.
publishDate 2005
dc.date.issued.fl_str_mv 2005
dc.date.accessioned.fl_str_mv 2007-06-06T18:51:25Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/5962
dc.identifier.nrb.pt_BR.fl_str_mv 000478320
url http://hdl.handle.net/10183/5962
identifier_str_mv 000478320
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/5962/1/000478320.pdf
http://www.lume.ufrgs.br/bitstream/10183/5962/2/000478320.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/5962/3/000478320.pdf.jpg
bitstream.checksum.fl_str_mv 6781877f1d3cfd609bcad8f75f05ac6a
b62296921615bc3593a19d08b8e1af70
53b5d71931baea5fb00ee8ce5cc45c93
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085060094722048