Termos e relacionamentos em evidência na recuperação de informação

Gonzalez, Marco Antonio Insaurriaga

Termos e relacionamentos em evidência na recuperação de informação

Detalhes bibliográficos
Autor(a) principal:	Gonzalez, Marco Antonio Insaurriaga
Data de Publicação:	2005
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/5962
Resumo:	Muitas abordagens para recuperação de informação (RI) assumem duas hipóteses: (i) cada termo de um documento é estatisticamente independente de todos os outros termos no texto, e (ii) métodos lingüísticos são de difícil aplicação nesta área. Contudo, há regularidades lingüísticas, produzidas pelas dependências entre termos, que precisam ser consideradas quando um texto é representado, e a representação de textos é crucial para aplicações que utilizam processamento da linguagem natural, como a RI. Um texto é mais do que uma simples seqüência de caracteres ou palavras. As palavras apresentam características morfológicas e relações de coesão que não podem ser esquecidas na descrição dos conceitos presentes no texto. Nesse sentido, um novo modelo com dependência de termos para a RI, denominado TR+, é proposto. Ele inclui: (i) nominalização, como processo de normalização lexical, e identificação de relações lexicais binárias (RLBs) e (ii) novas fórmulas para cálculo do peso das unidades de indexação (descritores). Essas fórmulas se baseiam no conceito de evidência, que leva em conta, além da freqüência de ocorrência, os mecanismos de coesão do texto. O modelo também inclui operadores Booleanos na consulta, para complementar a especificação da dependência de termos. Avaliações experimentais foram realizadas para demonstrar que (i) a nominalização apresenta melhores resultados em relação aos processos de normalização lexical usuais, (ii) a aquisição de informação lingüística, através de RLBs, e o uso de consultas Booleanas contribuem para a especificação de dependência de termos, e (iii) o cálculo da representatividade dos descritores baseado em evidência apresenta vantagens em relação ao cálculo baseado em freqüência de ocorrência. Os experimentos relatados indicam que esses recursos melhoram os resultados de sistemas de RI.

Metadados do item

id	URGS_85ae8404e68a7c4a75008bb47173e7af
oai_identifier_str	oai:www.lume.ufrgs.br:10183/5962
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Gonzalez, Marco Antonio InsaurriagaLima, Jose Valdeni deLima, Vera Lucia Strube de2007-06-06T18:51:25Z2005http://hdl.handle.net/10183/5962000478320Muitas abordagens para recuperação de informação (RI) assumem duas hipóteses: (i) cada termo de um documento é estatisticamente independente de todos os outros termos no texto, e (ii) métodos lingüísticos são de difícil aplicação nesta área. Contudo, há regularidades lingüísticas, produzidas pelas dependências entre termos, que precisam ser consideradas quando um texto é representado, e a representação de textos é crucial para aplicações que utilizam processamento da linguagem natural, como a RI. Um texto é mais do que uma simples seqüência de caracteres ou palavras. As palavras apresentam características morfológicas e relações de coesão que não podem ser esquecidas na descrição dos conceitos presentes no texto. Nesse sentido, um novo modelo com dependência de termos para a RI, denominado TR+, é proposto. Ele inclui: (i) nominalização, como processo de normalização lexical, e identificação de relações lexicais binárias (RLBs) e (ii) novas fórmulas para cálculo do peso das unidades de indexação (descritores). Essas fórmulas se baseiam no conceito de evidência, que leva em conta, além da freqüência de ocorrência, os mecanismos de coesão do texto. O modelo também inclui operadores Booleanos na consulta, para complementar a especificação da dependência de termos. Avaliações experimentais foram realizadas para demonstrar que (i) a nominalização apresenta melhores resultados em relação aos processos de normalização lexical usuais, (ii) a aquisição de informação lingüística, através de RLBs, e o uso de consultas Booleanas contribuem para a especificação de dependência de termos, e (iii) o cálculo da representatividade dos descritores baseado em evidência apresenta vantagens em relação ao cálculo baseado em freqüência de ocorrência. Os experimentos relatados indicam que esses recursos melhoram os resultados de sistemas de RI.application/pdfporArmazenamento : DadosRecuperacao : InformacaoTermos e relacionamentos em evidência na recuperação de informaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2005doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000478320.pdf000478320.pdfTexto completoapplication/pdf1123743http://www.lume.ufrgs.br/bitstream/10183/5962/1/000478320.pdf6781877f1d3cfd609bcad8f75f05ac6aMD51TEXT000478320.pdf.txt000478320.pdf.txtExtracted Texttext/plain558619http://www.lume.ufrgs.br/bitstream/10183/5962/2/000478320.pdf.txtb62296921615bc3593a19d08b8e1af70MD52THUMBNAIL000478320.pdf.jpg000478320.pdf.jpgGenerated Thumbnailimage/jpeg1154http://www.lume.ufrgs.br/bitstream/10183/5962/3/000478320.pdf.jpg53b5d71931baea5fb00ee8ce5cc45c93MD5310183/59622018-10-09 09:28:45.317oai:www.lume.ufrgs.br:10183/5962Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532018-10-09T12:28:45Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Termos e relacionamentos em evidência na recuperação de informação
title	Termos e relacionamentos em evidência na recuperação de informação
spellingShingle	Termos e relacionamentos em evidência na recuperação de informação Gonzalez, Marco Antonio Insaurriaga Armazenamento : Dados Recuperacao : Informacao
title_short	Termos e relacionamentos em evidência na recuperação de informação
title_full	Termos e relacionamentos em evidência na recuperação de informação
title_fullStr	Termos e relacionamentos em evidência na recuperação de informação
title_full_unstemmed	Termos e relacionamentos em evidência na recuperação de informação
title_sort	Termos e relacionamentos em evidência na recuperação de informação
author	Gonzalez, Marco Antonio Insaurriaga
author_facet	Gonzalez, Marco Antonio Insaurriaga
author_role	author
dc.contributor.author.fl_str_mv	Gonzalez, Marco Antonio Insaurriaga
dc.contributor.advisor1.fl_str_mv	Lima, Jose Valdeni de
dc.contributor.advisor-co1.fl_str_mv	Lima, Vera Lucia Strube de
contributor_str_mv	Lima, Jose Valdeni de Lima, Vera Lucia Strube de
dc.subject.por.fl_str_mv	Armazenamento : Dados Recuperacao : Informacao
topic	Armazenamento : Dados Recuperacao : Informacao
description	Muitas abordagens para recuperação de informação (RI) assumem duas hipóteses: (i) cada termo de um documento é estatisticamente independente de todos os outros termos no texto, e (ii) métodos lingüísticos são de difícil aplicação nesta área. Contudo, há regularidades lingüísticas, produzidas pelas dependências entre termos, que precisam ser consideradas quando um texto é representado, e a representação de textos é crucial para aplicações que utilizam processamento da linguagem natural, como a RI. Um texto é mais do que uma simples seqüência de caracteres ou palavras. As palavras apresentam características morfológicas e relações de coesão que não podem ser esquecidas na descrição dos conceitos presentes no texto. Nesse sentido, um novo modelo com dependência de termos para a RI, denominado TR+, é proposto. Ele inclui: (i) nominalização, como processo de normalização lexical, e identificação de relações lexicais binárias (RLBs) e (ii) novas fórmulas para cálculo do peso das unidades de indexação (descritores). Essas fórmulas se baseiam no conceito de evidência, que leva em conta, além da freqüência de ocorrência, os mecanismos de coesão do texto. O modelo também inclui operadores Booleanos na consulta, para complementar a especificação da dependência de termos. Avaliações experimentais foram realizadas para demonstrar que (i) a nominalização apresenta melhores resultados em relação aos processos de normalização lexical usuais, (ii) a aquisição de informação lingüística, através de RLBs, e o uso de consultas Booleanas contribuem para a especificação de dependência de termos, e (iii) o cálculo da representatividade dos descritores baseado em evidência apresenta vantagens em relação ao cálculo baseado em freqüência de ocorrência. Os experimentos relatados indicam que esses recursos melhoram os resultados de sistemas de RI.
publishDate	2005
dc.date.issued.fl_str_mv	2005
dc.date.accessioned.fl_str_mv	2007-06-06T18:51:25Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/5962
dc.identifier.nrb.pt_BR.fl_str_mv	000478320
url	http://hdl.handle.net/10183/5962
identifier_str_mv	000478320
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/5962/1/000478320.pdf http://www.lume.ufrgs.br/bitstream/10183/5962/2/000478320.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/5962/3/000478320.pdf.jpg
bitstream.checksum.fl_str_mv	6781877f1d3cfd609bcad8f75f05ac6a b62296921615bc3593a19d08b8e1af70 53b5d71931baea5fb00ee8ce5cc45c93
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1810085060094722048

Termos e relacionamentos em evidência na recuperação de informação

Registros relacionados