Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras

Detalhes bibliográficos
Autor(a) principal: Edson Marchetti da Silva
Data de Publicação: 2013
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/BUOS-97XFVY
Resumo: Normalmente, as ferramentas de busca em bases de dados utilizam-se de palavras-chave fornecidas pelo usuário para realizar a identificação de documentos. Este trabalho visa propor uma alternativa adicional que possa seragregada aos Sistemas de Recuperação da Informação (SRI) para auxiliar o usuário em seu processo de busca pela informação em base de documentos. Essa alternativa possibilita a realização de uma busca automatizada baseada em um documento fornecido pelousuário que serve de referência. Nesse contexto, delimitou-se como objeto de estudo a extração de expressões multipalavras (EM) do documento para servir como descritores da busca em um corpus específico. As EM são obtidas através de um método determinístico proposto que considera as características da estrutura física do documento e compara o resultado com o obtido por treze diferentes medidas de associação estatísticas produzidas pelo software Ngram Statistics Package (NSP) que considera o texto como um conjunto de palavras do inglês bag of words. Os resultados demonstram que o método proposto possibilita uma melhor representação semântica do documento trazendo ganhos qualitativosno conjunto de EM extraídas e que contribui positivamente para o resultado da Busca Comparada. A partir desses experimentos propôs-se e implementou-se um protótipo de ferramenta de Busca Comparada e apresentam-se os resultados obtidos com o seu uso.
id UFMG_12a7aadcd6ad7a6a809469100e46bc0c
oai_identifier_str oai:repositorio.ufmg.br:1843/BUOS-97XFVY
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Renato Rocha SouzaManoel Palhares MoreiraLuiz Claudio Gomes MaiaLidia AlvarengaMauricio Barcellos AlmeidaRenata Maria Abrantes Baracho PortoEdson Marchetti da Silva2019-08-13T17:52:07Z2019-08-13T17:52:07Z2013-04-25http://hdl.handle.net/1843/BUOS-97XFVYNormalmente, as ferramentas de busca em bases de dados utilizam-se de palavras-chave fornecidas pelo usuário para realizar a identificação de documentos. Este trabalho visa propor uma alternativa adicional que possa seragregada aos Sistemas de Recuperação da Informação (SRI) para auxiliar o usuário em seu processo de busca pela informação em base de documentos. Essa alternativa possibilita a realização de uma busca automatizada baseada em um documento fornecido pelousuário que serve de referência. Nesse contexto, delimitou-se como objeto de estudo a extração de expressões multipalavras (EM) do documento para servir como descritores da busca em um corpus específico. As EM são obtidas através de um método determinístico proposto que considera as características da estrutura física do documento e compara o resultado com o obtido por treze diferentes medidas de associação estatísticas produzidas pelo software Ngram Statistics Package (NSP) que considera o texto como um conjunto de palavras do inglês bag of words. Os resultados demonstram que o método proposto possibilita uma melhor representação semântica do documento trazendo ganhos qualitativosno conjunto de EM extraídas e que contribui positivamente para o resultado da Busca Comparada. A partir desses experimentos propôs-se e implementou-se um protótipo de ferramenta de Busca Comparada e apresentam-se os resultados obtidos com o seu uso.Normally, the search engines in databases is performed using keywords provided by the user to perform the documents identification. This study aims to propose an additional alternative that can be aggregated to Information Retrieval Systems (IRS) to assist the user in the process of information search. This alternative allows the realization of an automated search based on a document supplied by the user which serves as a reference. In this context the object of study was the extraction of Multi Word Expressions (MWE) of the document to serve as descriptors of the search in aspecific corpus. The MWE are obtained by a deterministic method which proposed that considers the characteristics of the physical structure of the document and compares the result with that obtained for thirteen different measures of association statistics produced by Statistics Ngram Package (NSP), which considers the text as a set of bag of words. The results demonstrate that the proposed method provides a better semantic representation of the document bringing together qualitative gains in MWE extracted and that it contributes positively to the results of the search compared. From these experiments we have proposed and implemented a prototype of a compared search tool and it was present the results obtained with its use.Universidade Federal de Minas GeraisUFMGCiência da informaçãoFerramentas de buscaSistemas de recuperação da informaçãoLinguagem documentariaRecuperação da informaçãoBusca comparadaExtração de expressões multipalavrasMedidas de associação estatísticasRecuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavrasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALtesevers_ofinal.pdfapplication/pdf1854317https://repositorio.ufmg.br/bitstream/1843/BUOS-97XFVY/1/tesevers_ofinal.pdf44d5cb20f2df5d3eecf0c9c72a7774c4MD51TEXTtesevers_ofinal.pdf.txttesevers_ofinal.pdf.txtExtracted texttext/plain363928https://repositorio.ufmg.br/bitstream/1843/BUOS-97XFVY/2/tesevers_ofinal.pdf.txt28a274bd60d8f3f3934062fe9136dfdaMD521843/BUOS-97XFVY2019-11-14 16:57:01.382oai:repositorio.ufmg.br:1843/BUOS-97XFVYRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T19:57:01Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras
title Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras
spellingShingle Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras
Edson Marchetti da Silva
Recuperação da informação
Busca comparada
Extração de expressões multipalavras
Medidas de associação estatísticas
Ciência da informação
Ferramentas de busca
Sistemas de recuperação da informação
Linguagem documentaria
title_short Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras
title_full Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras
title_fullStr Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras
title_full_unstemmed Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras
title_sort Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras
author Edson Marchetti da Silva
author_facet Edson Marchetti da Silva
author_role author
dc.contributor.advisor1.fl_str_mv Renato Rocha Souza
dc.contributor.referee1.fl_str_mv Manoel Palhares Moreira
dc.contributor.referee2.fl_str_mv Luiz Claudio Gomes Maia
dc.contributor.referee3.fl_str_mv Lidia Alvarenga
dc.contributor.referee4.fl_str_mv Mauricio Barcellos Almeida
dc.contributor.referee5.fl_str_mv Renata Maria Abrantes Baracho Porto
dc.contributor.author.fl_str_mv Edson Marchetti da Silva
contributor_str_mv Renato Rocha Souza
Manoel Palhares Moreira
Luiz Claudio Gomes Maia
Lidia Alvarenga
Mauricio Barcellos Almeida
Renata Maria Abrantes Baracho Porto
dc.subject.por.fl_str_mv Recuperação da informação
Busca comparada
Extração de expressões multipalavras
Medidas de associação estatísticas
topic Recuperação da informação
Busca comparada
Extração de expressões multipalavras
Medidas de associação estatísticas
Ciência da informação
Ferramentas de busca
Sistemas de recuperação da informação
Linguagem documentaria
dc.subject.other.pt_BR.fl_str_mv Ciência da informação
Ferramentas de busca
Sistemas de recuperação da informação
Linguagem documentaria
description Normalmente, as ferramentas de busca em bases de dados utilizam-se de palavras-chave fornecidas pelo usuário para realizar a identificação de documentos. Este trabalho visa propor uma alternativa adicional que possa seragregada aos Sistemas de Recuperação da Informação (SRI) para auxiliar o usuário em seu processo de busca pela informação em base de documentos. Essa alternativa possibilita a realização de uma busca automatizada baseada em um documento fornecido pelousuário que serve de referência. Nesse contexto, delimitou-se como objeto de estudo a extração de expressões multipalavras (EM) do documento para servir como descritores da busca em um corpus específico. As EM são obtidas através de um método determinístico proposto que considera as características da estrutura física do documento e compara o resultado com o obtido por treze diferentes medidas de associação estatísticas produzidas pelo software Ngram Statistics Package (NSP) que considera o texto como um conjunto de palavras do inglês bag of words. Os resultados demonstram que o método proposto possibilita uma melhor representação semântica do documento trazendo ganhos qualitativosno conjunto de EM extraídas e que contribui positivamente para o resultado da Busca Comparada. A partir desses experimentos propôs-se e implementou-se um protótipo de ferramenta de Busca Comparada e apresentam-se os resultados obtidos com o seu uso.
publishDate 2013
dc.date.issued.fl_str_mv 2013-04-25
dc.date.accessioned.fl_str_mv 2019-08-13T17:52:07Z
dc.date.available.fl_str_mv 2019-08-13T17:52:07Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/BUOS-97XFVY
url http://hdl.handle.net/1843/BUOS-97XFVY
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/BUOS-97XFVY/1/tesevers_ofinal.pdf
https://repositorio.ufmg.br/bitstream/1843/BUOS-97XFVY/2/tesevers_ofinal.pdf.txt
bitstream.checksum.fl_str_mv 44d5cb20f2df5d3eecf0c9c72a7774c4
28a274bd60d8f3f3934062fe9136dfda
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1801676898586066944