Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras
Autor(a) principal: | |
---|---|
Data de Publicação: | 2013 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFMG |
Texto Completo: | http://hdl.handle.net/1843/BUOS-97XFVY |
Resumo: | Normalmente, as ferramentas de busca em bases de dados utilizam-se de palavras-chave fornecidas pelo usuário para realizar a identificação de documentos. Este trabalho visa propor uma alternativa adicional que possa seragregada aos Sistemas de Recuperação da Informação (SRI) para auxiliar o usuário em seu processo de busca pela informação em base de documentos. Essa alternativa possibilita a realização de uma busca automatizada baseada em um documento fornecido pelousuário que serve de referência. Nesse contexto, delimitou-se como objeto de estudo a extração de expressões multipalavras (EM) do documento para servir como descritores da busca em um corpus específico. As EM são obtidas através de um método determinístico proposto que considera as características da estrutura física do documento e compara o resultado com o obtido por treze diferentes medidas de associação estatísticas produzidas pelo software Ngram Statistics Package (NSP) que considera o texto como um conjunto de palavras do inglês bag of words. Os resultados demonstram que o método proposto possibilita uma melhor representação semântica do documento trazendo ganhos qualitativosno conjunto de EM extraídas e que contribui positivamente para o resultado da Busca Comparada. A partir desses experimentos propôs-se e implementou-se um protótipo de ferramenta de Busca Comparada e apresentam-se os resultados obtidos com o seu uso. |
id |
UFMG_12a7aadcd6ad7a6a809469100e46bc0c |
---|---|
oai_identifier_str |
oai:repositorio.ufmg.br:1843/BUOS-97XFVY |
network_acronym_str |
UFMG |
network_name_str |
Repositório Institucional da UFMG |
repository_id_str |
|
spelling |
Renato Rocha SouzaManoel Palhares MoreiraLuiz Claudio Gomes MaiaLidia AlvarengaMauricio Barcellos AlmeidaRenata Maria Abrantes Baracho PortoEdson Marchetti da Silva2019-08-13T17:52:07Z2019-08-13T17:52:07Z2013-04-25http://hdl.handle.net/1843/BUOS-97XFVYNormalmente, as ferramentas de busca em bases de dados utilizam-se de palavras-chave fornecidas pelo usuário para realizar a identificação de documentos. Este trabalho visa propor uma alternativa adicional que possa seragregada aos Sistemas de Recuperação da Informação (SRI) para auxiliar o usuário em seu processo de busca pela informação em base de documentos. Essa alternativa possibilita a realização de uma busca automatizada baseada em um documento fornecido pelousuário que serve de referência. Nesse contexto, delimitou-se como objeto de estudo a extração de expressões multipalavras (EM) do documento para servir como descritores da busca em um corpus específico. As EM são obtidas através de um método determinístico proposto que considera as características da estrutura física do documento e compara o resultado com o obtido por treze diferentes medidas de associação estatísticas produzidas pelo software Ngram Statistics Package (NSP) que considera o texto como um conjunto de palavras do inglês bag of words. Os resultados demonstram que o método proposto possibilita uma melhor representação semântica do documento trazendo ganhos qualitativosno conjunto de EM extraídas e que contribui positivamente para o resultado da Busca Comparada. A partir desses experimentos propôs-se e implementou-se um protótipo de ferramenta de Busca Comparada e apresentam-se os resultados obtidos com o seu uso.Normally, the search engines in databases is performed using keywords provided by the user to perform the documents identification. This study aims to propose an additional alternative that can be aggregated to Information Retrieval Systems (IRS) to assist the user in the process of information search. This alternative allows the realization of an automated search based on a document supplied by the user which serves as a reference. In this context the object of study was the extraction of Multi Word Expressions (MWE) of the document to serve as descriptors of the search in aspecific corpus. The MWE are obtained by a deterministic method which proposed that considers the characteristics of the physical structure of the document and compares the result with that obtained for thirteen different measures of association statistics produced by Statistics Ngram Package (NSP), which considers the text as a set of bag of words. The results demonstrate that the proposed method provides a better semantic representation of the document bringing together qualitative gains in MWE extracted and that it contributes positively to the results of the search compared. From these experiments we have proposed and implemented a prototype of a compared search tool and it was present the results obtained with its use.Universidade Federal de Minas GeraisUFMGCiência da informaçãoFerramentas de buscaSistemas de recuperação da informaçãoLinguagem documentariaRecuperação da informaçãoBusca comparadaExtração de expressões multipalavrasMedidas de associação estatísticasRecuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavrasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALtesevers_ofinal.pdfapplication/pdf1854317https://repositorio.ufmg.br/bitstream/1843/BUOS-97XFVY/1/tesevers_ofinal.pdf44d5cb20f2df5d3eecf0c9c72a7774c4MD51TEXTtesevers_ofinal.pdf.txttesevers_ofinal.pdf.txtExtracted texttext/plain363928https://repositorio.ufmg.br/bitstream/1843/BUOS-97XFVY/2/tesevers_ofinal.pdf.txt28a274bd60d8f3f3934062fe9136dfdaMD521843/BUOS-97XFVY2019-11-14 16:57:01.382oai:repositorio.ufmg.br:1843/BUOS-97XFVYRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T19:57:01Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.pt_BR.fl_str_mv |
Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras |
title |
Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras |
spellingShingle |
Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras Edson Marchetti da Silva Recuperação da informação Busca comparada Extração de expressões multipalavras Medidas de associação estatísticas Ciência da informação Ferramentas de busca Sistemas de recuperação da informação Linguagem documentaria |
title_short |
Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras |
title_full |
Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras |
title_fullStr |
Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras |
title_full_unstemmed |
Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras |
title_sort |
Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras |
author |
Edson Marchetti da Silva |
author_facet |
Edson Marchetti da Silva |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Renato Rocha Souza |
dc.contributor.referee1.fl_str_mv |
Manoel Palhares Moreira |
dc.contributor.referee2.fl_str_mv |
Luiz Claudio Gomes Maia |
dc.contributor.referee3.fl_str_mv |
Lidia Alvarenga |
dc.contributor.referee4.fl_str_mv |
Mauricio Barcellos Almeida |
dc.contributor.referee5.fl_str_mv |
Renata Maria Abrantes Baracho Porto |
dc.contributor.author.fl_str_mv |
Edson Marchetti da Silva |
contributor_str_mv |
Renato Rocha Souza Manoel Palhares Moreira Luiz Claudio Gomes Maia Lidia Alvarenga Mauricio Barcellos Almeida Renata Maria Abrantes Baracho Porto |
dc.subject.por.fl_str_mv |
Recuperação da informação Busca comparada Extração de expressões multipalavras Medidas de associação estatísticas |
topic |
Recuperação da informação Busca comparada Extração de expressões multipalavras Medidas de associação estatísticas Ciência da informação Ferramentas de busca Sistemas de recuperação da informação Linguagem documentaria |
dc.subject.other.pt_BR.fl_str_mv |
Ciência da informação Ferramentas de busca Sistemas de recuperação da informação Linguagem documentaria |
description |
Normalmente, as ferramentas de busca em bases de dados utilizam-se de palavras-chave fornecidas pelo usuário para realizar a identificação de documentos. Este trabalho visa propor uma alternativa adicional que possa seragregada aos Sistemas de Recuperação da Informação (SRI) para auxiliar o usuário em seu processo de busca pela informação em base de documentos. Essa alternativa possibilita a realização de uma busca automatizada baseada em um documento fornecido pelousuário que serve de referência. Nesse contexto, delimitou-se como objeto de estudo a extração de expressões multipalavras (EM) do documento para servir como descritores da busca em um corpus específico. As EM são obtidas através de um método determinístico proposto que considera as características da estrutura física do documento e compara o resultado com o obtido por treze diferentes medidas de associação estatísticas produzidas pelo software Ngram Statistics Package (NSP) que considera o texto como um conjunto de palavras do inglês bag of words. Os resultados demonstram que o método proposto possibilita uma melhor representação semântica do documento trazendo ganhos qualitativosno conjunto de EM extraídas e que contribui positivamente para o resultado da Busca Comparada. A partir desses experimentos propôs-se e implementou-se um protótipo de ferramenta de Busca Comparada e apresentam-se os resultados obtidos com o seu uso. |
publishDate |
2013 |
dc.date.issued.fl_str_mv |
2013-04-25 |
dc.date.accessioned.fl_str_mv |
2019-08-13T17:52:07Z |
dc.date.available.fl_str_mv |
2019-08-13T17:52:07Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1843/BUOS-97XFVY |
url |
http://hdl.handle.net/1843/BUOS-97XFVY |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.publisher.initials.fl_str_mv |
UFMG |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Repositório Institucional da UFMG |
collection |
Repositório Institucional da UFMG |
bitstream.url.fl_str_mv |
https://repositorio.ufmg.br/bitstream/1843/BUOS-97XFVY/1/tesevers_ofinal.pdf https://repositorio.ufmg.br/bitstream/1843/BUOS-97XFVY/2/tesevers_ofinal.pdf.txt |
bitstream.checksum.fl_str_mv |
44d5cb20f2df5d3eecf0c9c72a7774c4 28a274bd60d8f3f3934062fe9136dfda |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
|
_version_ |
1801676898586066944 |