Um novo modelo de ordenação de documentos baseados em correlação entre termos

Detalhes bibliográficos
Autor(a) principal: Bruno Augusto Vivas e Possas
Data de Publicação: 2005
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/RVMR-6HKGAL
Resumo: Neste trabalho apresentamos uma nova abordagem para a ordenação de documentos a partir do modelo de espaço vetorial. A sua originalidade apresenta-se em dois pontos principais: Primeiro, padrões de correlação entre os termos são levados em consideração e processados de forma eficiente. Segundo, a ponderação dos termos é baseada em uma técnica de mineração de dados chamada de regras de associação. A partir desses pontos definimos um novo mecanismo de ordenação chamado modelo de espaço vetorial baseado em conjuntos. Os componentes desse modelo deixam de ser os termos, e passam a ser os conjuntos de termos. Os conjuntos de termos capturam a intuição que termos semanticamente relacionados aparecem próximos em um documento. Esses conjuntos podem ser eficientemente gerados limitando sua computação a pequenos trechos de texto. Uma vez computados os conjuntos de termos, a função de ordenação é calculada a partir da freqüência de um conjunto no documento e sua raridade na coleção. Nossa abordagem provê uma forma simples, efetiva, eficiente e parametrizada para o processamento de consultas disjuntivas, conjuntivas, por frases, além de ser usada para a estruturação automática de consultas. Todas as abordagens conhecidas que levam em consideração a correlação entre os termos foram projetadas somente para o processamento de consultas disjuntivas. Resultados experimentais mostram que o nosso modelo aumenta a precisão média para todas as coleções e tipos de consultas avaliados, mantendo o custo computacional adicional aceitável. Para a coleção TREC-8 de 2 gigabytes, a utilização do nosso modelo implica em um ganho de precisão média de 14.7% e 16.4% para consultas disjuntivas e conjuntivas, respectivamente, em relação ao modelo de espaço vetorial padrão. Esses ganhos aumentam para 24.9% e 30.0%, respectivamente, quando a informação de proximidade é levada em consideração. Os tempos de processamento das consultassão maiores, mas continuam comparáveis com os tempos obtidos para o modelo de espaço vetorial (o crescimento no tempo médio de processamento varia de 30% a 300%). Os resultados experimentais também mostram o sucesso do nosso modelo para a estruturação automática de consultas. Por exemplo, utilizando a TREC-8, nosso modelo gera ganhos de precisão média de aproximadamente 28\% em comparação com o mecanismo de ordenação baseado na fórmula de ponderação BM25. Nossos resultados sugerem que a fórmula de ordenação do modelo de espaço vetorial baseado em conjuntos é bastante efetiva e computacionalmente viável para coleções genéricas.
id UFMG_a99f7a95b9c0bc9af7ff9916aac0f833
oai_identifier_str oai:repositorio.ufmg.br:1843/RVMR-6HKGAL
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Nivio ZivianiWagner Meira JuniorEdleno Silva de MouraRicardo Baeza-yatesBerthier Ribeiro de Araujo NetoImre SimonBruno Augusto Vivas e Possas2019-08-09T15:06:53Z2019-08-09T15:06:53Z2005-08-22http://hdl.handle.net/1843/RVMR-6HKGALNeste trabalho apresentamos uma nova abordagem para a ordenação de documentos a partir do modelo de espaço vetorial. A sua originalidade apresenta-se em dois pontos principais: Primeiro, padrões de correlação entre os termos são levados em consideração e processados de forma eficiente. Segundo, a ponderação dos termos é baseada em uma técnica de mineração de dados chamada de regras de associação. A partir desses pontos definimos um novo mecanismo de ordenação chamado modelo de espaço vetorial baseado em conjuntos. Os componentes desse modelo deixam de ser os termos, e passam a ser os conjuntos de termos. Os conjuntos de termos capturam a intuição que termos semanticamente relacionados aparecem próximos em um documento. Esses conjuntos podem ser eficientemente gerados limitando sua computação a pequenos trechos de texto. Uma vez computados os conjuntos de termos, a função de ordenação é calculada a partir da freqüência de um conjunto no documento e sua raridade na coleção. Nossa abordagem provê uma forma simples, efetiva, eficiente e parametrizada para o processamento de consultas disjuntivas, conjuntivas, por frases, além de ser usada para a estruturação automática de consultas. Todas as abordagens conhecidas que levam em consideração a correlação entre os termos foram projetadas somente para o processamento de consultas disjuntivas. Resultados experimentais mostram que o nosso modelo aumenta a precisão média para todas as coleções e tipos de consultas avaliados, mantendo o custo computacional adicional aceitável. Para a coleção TREC-8 de 2 gigabytes, a utilização do nosso modelo implica em um ganho de precisão média de 14.7% e 16.4% para consultas disjuntivas e conjuntivas, respectivamente, em relação ao modelo de espaço vetorial padrão. Esses ganhos aumentam para 24.9% e 30.0%, respectivamente, quando a informação de proximidade é levada em consideração. Os tempos de processamento das consultassão maiores, mas continuam comparáveis com os tempos obtidos para o modelo de espaço vetorial (o crescimento no tempo médio de processamento varia de 30% a 300%). Os resultados experimentais também mostram o sucesso do nosso modelo para a estruturação automática de consultas. Por exemplo, utilizando a TREC-8, nosso modelo gera ganhos de precisão média de aproximadamente 28\% em comparação com o mecanismo de ordenação baseado na fórmula de ponderação BM25. Nossos resultados sugerem que a fórmula de ordenação do modelo de espaço vetorial baseado em conjuntos é bastante efetiva e computacionalmente viável para coleções genéricas.This work presents a new approach for ranking documents in the vector space model. Thenovelty lies in two fronts. First, patterns of term co-occurrence are taken into account and are processed ef_ciently. Second, term weights are generated using a data mining technique called association rules. This leads to a new ranking mechanism called the set-based vector model. The components of our model are no longer index terms but index termsets, where a termset is a set of index terms. Termsets capture the intuition that semantically related terms appear close to each other in a document. They can be ef_ciently obtained by limiting the computation to small passages of text. Once termsets have been computed, the ranking is calculated as a function of the termset frequency in the document and its scarcity in the document collection. The application of our approach provides a simple, effective, ef_cient and parameterized way to process disjunctive, conjunctive, phrase queries, and automatically structured complex queries. All known approaches that account for correlation among index terms were initially designed for processing only disjunctive queries. Experimental results show that the set-based vector model improves average precision for all collections and query types evaluated, while keeping computational costs small. For the 2 gigabyte TREC-8 collection, the set-based vector model leads to a gain in average precision _gures of 14.7% and 16.4% for disjunctive and conjunctive queries, respectively, with respect to the standard vector space model. These gains increase to 24.9% and 30.0%, respectively, when proximity information is taken into account. Query processing times are larger but, on average, still comparable to those obtained with the standard vector model (increases in processing time varied from 30% to 300%). The experimental results also show that the set-based model can be successfully used for automatically structuring queries. For instance, using the TREC-8 test collection, our technique led to gains in average precision of roughly 28% with regard to a BM25 ranking formula. Our results suggest that the set-based vector model provides a correlation-based ranking formula that is effective with general collections and computationally practical.Universidade Federal de Minas GeraisUFMGSistemas de recuperação da informaçãoBanco de dados GerênciaData mining (Sistemas de recuperação da informação)Informação Sistema de armazenagem e recuperaçãoRecuperação de informaçãoOrdenação de documentosUm novo modelo de ordenação de documentos baseados em correlação entre termosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALbruno_possas.pdfapplication/pdf1007156https://repositorio.ufmg.br/bitstream/1843/RVMR-6HKGAL/1/bruno_possas.pdfb8702448edb1e4abcd180cd443682180MD51TEXTbruno_possas.pdf.txtbruno_possas.pdf.txtExtracted texttext/plain257721https://repositorio.ufmg.br/bitstream/1843/RVMR-6HKGAL/2/bruno_possas.pdf.txte0ef9fbc487c128bf95fe191f9aa8346MD521843/RVMR-6HKGAL2019-11-14 03:36:36.242oai:repositorio.ufmg.br:1843/RVMR-6HKGALRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T06:36:36Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Um novo modelo de ordenação de documentos baseados em correlação entre termos
title Um novo modelo de ordenação de documentos baseados em correlação entre termos
spellingShingle Um novo modelo de ordenação de documentos baseados em correlação entre termos
Bruno Augusto Vivas e Possas
Recuperação de informação
Ordenação de documentos
Sistemas de recuperação da informação
Banco de dados Gerência
Data mining (Sistemas de recuperação da informação)
Informação Sistema de armazenagem e recuperação
title_short Um novo modelo de ordenação de documentos baseados em correlação entre termos
title_full Um novo modelo de ordenação de documentos baseados em correlação entre termos
title_fullStr Um novo modelo de ordenação de documentos baseados em correlação entre termos
title_full_unstemmed Um novo modelo de ordenação de documentos baseados em correlação entre termos
title_sort Um novo modelo de ordenação de documentos baseados em correlação entre termos
author Bruno Augusto Vivas e Possas
author_facet Bruno Augusto Vivas e Possas
author_role author
dc.contributor.advisor1.fl_str_mv Nivio Ziviani
dc.contributor.advisor-co1.fl_str_mv Wagner Meira Junior
dc.contributor.referee1.fl_str_mv Edleno Silva de Moura
dc.contributor.referee2.fl_str_mv Ricardo Baeza-yates
dc.contributor.referee3.fl_str_mv Berthier Ribeiro de Araujo Neto
dc.contributor.referee4.fl_str_mv Imre Simon
dc.contributor.author.fl_str_mv Bruno Augusto Vivas e Possas
contributor_str_mv Nivio Ziviani
Wagner Meira Junior
Edleno Silva de Moura
Ricardo Baeza-yates
Berthier Ribeiro de Araujo Neto
Imre Simon
dc.subject.por.fl_str_mv Recuperação de informação
Ordenação de documentos
topic Recuperação de informação
Ordenação de documentos
Sistemas de recuperação da informação
Banco de dados Gerência
Data mining (Sistemas de recuperação da informação)
Informação Sistema de armazenagem e recuperação
dc.subject.other.pt_BR.fl_str_mv Sistemas de recuperação da informação
Banco de dados Gerência
Data mining (Sistemas de recuperação da informação)
Informação Sistema de armazenagem e recuperação
description Neste trabalho apresentamos uma nova abordagem para a ordenação de documentos a partir do modelo de espaço vetorial. A sua originalidade apresenta-se em dois pontos principais: Primeiro, padrões de correlação entre os termos são levados em consideração e processados de forma eficiente. Segundo, a ponderação dos termos é baseada em uma técnica de mineração de dados chamada de regras de associação. A partir desses pontos definimos um novo mecanismo de ordenação chamado modelo de espaço vetorial baseado em conjuntos. Os componentes desse modelo deixam de ser os termos, e passam a ser os conjuntos de termos. Os conjuntos de termos capturam a intuição que termos semanticamente relacionados aparecem próximos em um documento. Esses conjuntos podem ser eficientemente gerados limitando sua computação a pequenos trechos de texto. Uma vez computados os conjuntos de termos, a função de ordenação é calculada a partir da freqüência de um conjunto no documento e sua raridade na coleção. Nossa abordagem provê uma forma simples, efetiva, eficiente e parametrizada para o processamento de consultas disjuntivas, conjuntivas, por frases, além de ser usada para a estruturação automática de consultas. Todas as abordagens conhecidas que levam em consideração a correlação entre os termos foram projetadas somente para o processamento de consultas disjuntivas. Resultados experimentais mostram que o nosso modelo aumenta a precisão média para todas as coleções e tipos de consultas avaliados, mantendo o custo computacional adicional aceitável. Para a coleção TREC-8 de 2 gigabytes, a utilização do nosso modelo implica em um ganho de precisão média de 14.7% e 16.4% para consultas disjuntivas e conjuntivas, respectivamente, em relação ao modelo de espaço vetorial padrão. Esses ganhos aumentam para 24.9% e 30.0%, respectivamente, quando a informação de proximidade é levada em consideração. Os tempos de processamento das consultassão maiores, mas continuam comparáveis com os tempos obtidos para o modelo de espaço vetorial (o crescimento no tempo médio de processamento varia de 30% a 300%). Os resultados experimentais também mostram o sucesso do nosso modelo para a estruturação automática de consultas. Por exemplo, utilizando a TREC-8, nosso modelo gera ganhos de precisão média de aproximadamente 28\% em comparação com o mecanismo de ordenação baseado na fórmula de ponderação BM25. Nossos resultados sugerem que a fórmula de ordenação do modelo de espaço vetorial baseado em conjuntos é bastante efetiva e computacionalmente viável para coleções genéricas.
publishDate 2005
dc.date.issued.fl_str_mv 2005-08-22
dc.date.accessioned.fl_str_mv 2019-08-09T15:06:53Z
dc.date.available.fl_str_mv 2019-08-09T15:06:53Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/RVMR-6HKGAL
url http://hdl.handle.net/1843/RVMR-6HKGAL
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/RVMR-6HKGAL/1/bruno_possas.pdf
https://repositorio.ufmg.br/bitstream/1843/RVMR-6HKGAL/2/bruno_possas.pdf.txt
bitstream.checksum.fl_str_mv b8702448edb1e4abcd180cd443682180
e0ef9fbc487c128bf95fe191f9aa8346
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589208371101696