Termos e relacionamentos em evidência na recuperação de informação
Autor(a) principal: | |
---|---|
Data de Publicação: | 2005 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/5962 |
Resumo: | Muitas abordagens para recuperação de informação (RI) assumem duas hipóteses: (i) cada termo de um documento é estatisticamente independente de todos os outros termos no texto, e (ii) métodos lingüísticos são de difícil aplicação nesta área. Contudo, há regularidades lingüísticas, produzidas pelas dependências entre termos, que precisam ser consideradas quando um texto é representado, e a representação de textos é crucial para aplicações que utilizam processamento da linguagem natural, como a RI. Um texto é mais do que uma simples seqüência de caracteres ou palavras. As palavras apresentam características morfológicas e relações de coesão que não podem ser esquecidas na descrição dos conceitos presentes no texto. Nesse sentido, um novo modelo com dependência de termos para a RI, denominado TR+, é proposto. Ele inclui: (i) nominalização, como processo de normalização lexical, e identificação de relações lexicais binárias (RLBs) e (ii) novas fórmulas para cálculo do peso das unidades de indexação (descritores). Essas fórmulas se baseiam no conceito de evidência, que leva em conta, além da freqüência de ocorrência, os mecanismos de coesão do texto. O modelo também inclui operadores Booleanos na consulta, para complementar a especificação da dependência de termos. Avaliações experimentais foram realizadas para demonstrar que (i) a nominalização apresenta melhores resultados em relação aos processos de normalização lexical usuais, (ii) a aquisição de informação lingüística, através de RLBs, e o uso de consultas Booleanas contribuem para a especificação de dependência de termos, e (iii) o cálculo da representatividade dos descritores baseado em evidência apresenta vantagens em relação ao cálculo baseado em freqüência de ocorrência. Os experimentos relatados indicam que esses recursos melhoram os resultados de sistemas de RI. |
id |
URGS_85ae8404e68a7c4a75008bb47173e7af |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/5962 |
network_acronym_str |
URGS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
repository_id_str |
1853 |
spelling |
Gonzalez, Marco Antonio InsaurriagaLima, Jose Valdeni deLima, Vera Lucia Strube de2007-06-06T18:51:25Z2005http://hdl.handle.net/10183/5962000478320Muitas abordagens para recuperação de informação (RI) assumem duas hipóteses: (i) cada termo de um documento é estatisticamente independente de todos os outros termos no texto, e (ii) métodos lingüísticos são de difícil aplicação nesta área. Contudo, há regularidades lingüísticas, produzidas pelas dependências entre termos, que precisam ser consideradas quando um texto é representado, e a representação de textos é crucial para aplicações que utilizam processamento da linguagem natural, como a RI. Um texto é mais do que uma simples seqüência de caracteres ou palavras. As palavras apresentam características morfológicas e relações de coesão que não podem ser esquecidas na descrição dos conceitos presentes no texto. Nesse sentido, um novo modelo com dependência de termos para a RI, denominado TR+, é proposto. Ele inclui: (i) nominalização, como processo de normalização lexical, e identificação de relações lexicais binárias (RLBs) e (ii) novas fórmulas para cálculo do peso das unidades de indexação (descritores). Essas fórmulas se baseiam no conceito de evidência, que leva em conta, além da freqüência de ocorrência, os mecanismos de coesão do texto. O modelo também inclui operadores Booleanos na consulta, para complementar a especificação da dependência de termos. Avaliações experimentais foram realizadas para demonstrar que (i) a nominalização apresenta melhores resultados em relação aos processos de normalização lexical usuais, (ii) a aquisição de informação lingüística, através de RLBs, e o uso de consultas Booleanas contribuem para a especificação de dependência de termos, e (iii) o cálculo da representatividade dos descritores baseado em evidência apresenta vantagens em relação ao cálculo baseado em freqüência de ocorrência. Os experimentos relatados indicam que esses recursos melhoram os resultados de sistemas de RI.application/pdfporArmazenamento : DadosRecuperacao : InformacaoTermos e relacionamentos em evidência na recuperação de informaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2005doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000478320.pdf000478320.pdfTexto completoapplication/pdf1123743http://www.lume.ufrgs.br/bitstream/10183/5962/1/000478320.pdf6781877f1d3cfd609bcad8f75f05ac6aMD51TEXT000478320.pdf.txt000478320.pdf.txtExtracted Texttext/plain558619http://www.lume.ufrgs.br/bitstream/10183/5962/2/000478320.pdf.txtb62296921615bc3593a19d08b8e1af70MD52THUMBNAIL000478320.pdf.jpg000478320.pdf.jpgGenerated Thumbnailimage/jpeg1154http://www.lume.ufrgs.br/bitstream/10183/5962/3/000478320.pdf.jpg53b5d71931baea5fb00ee8ce5cc45c93MD5310183/59622018-10-09 09:28:45.317oai:www.lume.ufrgs.br:10183/5962Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532018-10-09T12:28:45Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Termos e relacionamentos em evidência na recuperação de informação |
title |
Termos e relacionamentos em evidência na recuperação de informação |
spellingShingle |
Termos e relacionamentos em evidência na recuperação de informação Gonzalez, Marco Antonio Insaurriaga Armazenamento : Dados Recuperacao : Informacao |
title_short |
Termos e relacionamentos em evidência na recuperação de informação |
title_full |
Termos e relacionamentos em evidência na recuperação de informação |
title_fullStr |
Termos e relacionamentos em evidência na recuperação de informação |
title_full_unstemmed |
Termos e relacionamentos em evidência na recuperação de informação |
title_sort |
Termos e relacionamentos em evidência na recuperação de informação |
author |
Gonzalez, Marco Antonio Insaurriaga |
author_facet |
Gonzalez, Marco Antonio Insaurriaga |
author_role |
author |
dc.contributor.author.fl_str_mv |
Gonzalez, Marco Antonio Insaurriaga |
dc.contributor.advisor1.fl_str_mv |
Lima, Jose Valdeni de |
dc.contributor.advisor-co1.fl_str_mv |
Lima, Vera Lucia Strube de |
contributor_str_mv |
Lima, Jose Valdeni de Lima, Vera Lucia Strube de |
dc.subject.por.fl_str_mv |
Armazenamento : Dados Recuperacao : Informacao |
topic |
Armazenamento : Dados Recuperacao : Informacao |
description |
Muitas abordagens para recuperação de informação (RI) assumem duas hipóteses: (i) cada termo de um documento é estatisticamente independente de todos os outros termos no texto, e (ii) métodos lingüísticos são de difícil aplicação nesta área. Contudo, há regularidades lingüísticas, produzidas pelas dependências entre termos, que precisam ser consideradas quando um texto é representado, e a representação de textos é crucial para aplicações que utilizam processamento da linguagem natural, como a RI. Um texto é mais do que uma simples seqüência de caracteres ou palavras. As palavras apresentam características morfológicas e relações de coesão que não podem ser esquecidas na descrição dos conceitos presentes no texto. Nesse sentido, um novo modelo com dependência de termos para a RI, denominado TR+, é proposto. Ele inclui: (i) nominalização, como processo de normalização lexical, e identificação de relações lexicais binárias (RLBs) e (ii) novas fórmulas para cálculo do peso das unidades de indexação (descritores). Essas fórmulas se baseiam no conceito de evidência, que leva em conta, além da freqüência de ocorrência, os mecanismos de coesão do texto. O modelo também inclui operadores Booleanos na consulta, para complementar a especificação da dependência de termos. Avaliações experimentais foram realizadas para demonstrar que (i) a nominalização apresenta melhores resultados em relação aos processos de normalização lexical usuais, (ii) a aquisição de informação lingüística, através de RLBs, e o uso de consultas Booleanas contribuem para a especificação de dependência de termos, e (iii) o cálculo da representatividade dos descritores baseado em evidência apresenta vantagens em relação ao cálculo baseado em freqüência de ocorrência. Os experimentos relatados indicam que esses recursos melhoram os resultados de sistemas de RI. |
publishDate |
2005 |
dc.date.issued.fl_str_mv |
2005 |
dc.date.accessioned.fl_str_mv |
2007-06-06T18:51:25Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/5962 |
dc.identifier.nrb.pt_BR.fl_str_mv |
000478320 |
url |
http://hdl.handle.net/10183/5962 |
identifier_str_mv |
000478320 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/5962/1/000478320.pdf http://www.lume.ufrgs.br/bitstream/10183/5962/2/000478320.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/5962/3/000478320.pdf.jpg |
bitstream.checksum.fl_str_mv |
6781877f1d3cfd609bcad8f75f05ac6a b62296921615bc3593a19d08b8e1af70 53b5d71931baea5fb00ee8ce5cc45c93 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
_version_ |
1810085060094722048 |