Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínio
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UNESP |
Texto Completo: | http://hdl.handle.net/11449/213691 |
Resumo: | Um sistema de recuperação de informação é formado por três elementos básicos: as representações dos documentos, a expressão de busca do usuário e alguma forma de comparação entre esses dois elementos. Por um lado, o acervo é constituído em um momento anterior às buscas, e cada documento pode ser representado utilizando técnicas automatizadas. Por outro lado, a necessidade de informação do usuário só é percebida após a sua enunciação por meio de expressão de busca. A elaboração de uma expressão de busca, que represente de forma precisa a necessidade de informação de um usuário pode ser uma tarefa complexa. Nesse sentido, as ontologias no papel de instrumentos de controle de vocabulário podem ser utilizadas no aprimoramento desta tarefa. As ontologias possibilitam, entre outras funções, a contextualização da busca, utilizando sua estrutura terminológica para procurar pelos termos/conceitos que compõem à consulta pode-se determinar o contexto da busca. A partir desse contexto, selecionado pelo usuário e representado por uma ontologia, pode-se expandir a consulta utilizando termos/conceitos relacionados. Desta forma, esta pesquisa tem como objetivo geral a proposição de um método interativo de contextualização da necessidade de informação e expansão de consultas em sistemas de recuperação de informação utilizando a estrutura terminológica das ontologias de domínio. Como objetivos específicos, a tese se propõe a: a) discutir o processo de Recuperação de Informação, evidenciando a relação entre a expressão de busca e os resultados recuperados; b) discutir os conceitos e características das ontologias, explorando sua utilidade nos processos de recuperação de informação, expansão e contextualização das consultas; c) desenvolver um método de contextualização da busca, por meio dos termos que compõem a consulta e expansão da consulta a partir da identificação de conceitos relacionados (genéricos, específicos e equivalentes) à um conceito inicial, utilizando para ambos ontologias de domínio. d) implementar um protótipo de um sistema de recuperação de informação Web para demonstrar a utilização do método proposto em um ambiente controlado; e) analisar os resultados obtidos em relação à relevância com a expressão de busca. Esta pesquisa é classificada como qualitativa de natureza aplicada, e foi dividida em duas etapas. Na primeira foi elaborada uma pesquisa bibliográfica de caráter exploratório, que proporcionou o embasamento teórico para fundamentar o estudo e levantar os principais problemas relacionados à tarefa de recuperar informações. Na sequência, a pesquisa aplicada consistiu na proposição do método em resposta à problemática identificada. Dentre os principais resultados está a proposição do método de contextualização e expansão de consultas e o desenvolvimento de um software denominado ContextOnSearch, um mecanismo de busca Web com uma interface baseada em uma caixa de texto livre que implementa o método proposto. Para a realização dos testes foi criada uma coleção composta por 481 documentos oriundos do Jornal de Pediatria e publicados entre os anos 2016 e 2020. Foi utilizada ainda uma ontologia da área biomédica denominada Pediatric Terminology. Os resultados indicam um aumento da revocação sem perdas significativas na precisão e uma melhoria na classificação pela relevância dos resultados. Conclui-se que o uso de ferramentas de apoio ao usuário em mecanismos de busca pode facilitar a formulação de expressões de busca e possibilitar melhorias na comunicação entre usuários e sistemas, alcançado resultados mais relevantes e contribuindo com o processo de recuperação de informação. |
id |
UNSP_3a6b4b05d18cd0ca622e6b39f12ee701 |
---|---|
oai_identifier_str |
oai:repositorio.unesp.br:11449/213691 |
network_acronym_str |
UNSP |
network_name_str |
Repositório Institucional da UNESP |
repository_id_str |
2946 |
spelling |
Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínioContextualization and expansion of queries in information retrieval systems: a method based on domain ontologiesRecuperação da informaçãoOntologias de domínioContextualização da expressão de buscaExpansão de consultasContextOnSearchInformation retrievalDomain ontologiesSearch expression contextualizationQuery expansionUm sistema de recuperação de informação é formado por três elementos básicos: as representações dos documentos, a expressão de busca do usuário e alguma forma de comparação entre esses dois elementos. Por um lado, o acervo é constituído em um momento anterior às buscas, e cada documento pode ser representado utilizando técnicas automatizadas. Por outro lado, a necessidade de informação do usuário só é percebida após a sua enunciação por meio de expressão de busca. A elaboração de uma expressão de busca, que represente de forma precisa a necessidade de informação de um usuário pode ser uma tarefa complexa. Nesse sentido, as ontologias no papel de instrumentos de controle de vocabulário podem ser utilizadas no aprimoramento desta tarefa. As ontologias possibilitam, entre outras funções, a contextualização da busca, utilizando sua estrutura terminológica para procurar pelos termos/conceitos que compõem à consulta pode-se determinar o contexto da busca. A partir desse contexto, selecionado pelo usuário e representado por uma ontologia, pode-se expandir a consulta utilizando termos/conceitos relacionados. Desta forma, esta pesquisa tem como objetivo geral a proposição de um método interativo de contextualização da necessidade de informação e expansão de consultas em sistemas de recuperação de informação utilizando a estrutura terminológica das ontologias de domínio. Como objetivos específicos, a tese se propõe a: a) discutir o processo de Recuperação de Informação, evidenciando a relação entre a expressão de busca e os resultados recuperados; b) discutir os conceitos e características das ontologias, explorando sua utilidade nos processos de recuperação de informação, expansão e contextualização das consultas; c) desenvolver um método de contextualização da busca, por meio dos termos que compõem a consulta e expansão da consulta a partir da identificação de conceitos relacionados (genéricos, específicos e equivalentes) à um conceito inicial, utilizando para ambos ontologias de domínio. d) implementar um protótipo de um sistema de recuperação de informação Web para demonstrar a utilização do método proposto em um ambiente controlado; e) analisar os resultados obtidos em relação à relevância com a expressão de busca. Esta pesquisa é classificada como qualitativa de natureza aplicada, e foi dividida em duas etapas. Na primeira foi elaborada uma pesquisa bibliográfica de caráter exploratório, que proporcionou o embasamento teórico para fundamentar o estudo e levantar os principais problemas relacionados à tarefa de recuperar informações. Na sequência, a pesquisa aplicada consistiu na proposição do método em resposta à problemática identificada. Dentre os principais resultados está a proposição do método de contextualização e expansão de consultas e o desenvolvimento de um software denominado ContextOnSearch, um mecanismo de busca Web com uma interface baseada em uma caixa de texto livre que implementa o método proposto. Para a realização dos testes foi criada uma coleção composta por 481 documentos oriundos do Jornal de Pediatria e publicados entre os anos 2016 e 2020. Foi utilizada ainda uma ontologia da área biomédica denominada Pediatric Terminology. Os resultados indicam um aumento da revocação sem perdas significativas na precisão e uma melhoria na classificação pela relevância dos resultados. Conclui-se que o uso de ferramentas de apoio ao usuário em mecanismos de busca pode facilitar a formulação de expressões de busca e possibilitar melhorias na comunicação entre usuários e sistemas, alcançado resultados mais relevantes e contribuindo com o processo de recuperação de informação.An information retrieval system is made up of three basic elements: the documents representations, a user's search expression and some form of comparison between these two elements. On one hand, the collection is composed a moment before the searches, and each document can be represented using automated techniques. On the other hand, the user's need for information is only noticed after its enunciation through a query. The elaboration of a search expression that accurately represents a user's information needs can be a complex task. In this sense, ontologies in the role of vocabulary control instruments can be used to improve this task. Ontologies allow, the contextualization of the search, among other functions, using its terminological structure to search for the terms/concepts that make up the query, it is possible to determine the context of the search. From this context, which was selected by the user and represented by an ontology, the query can be expanded using related terms/concepts. Thus, this research aims to propose an interactive method of contextualizing the information needs and query expansion in information retrieval systems using the terminological structure of domain ontologies. As specific objectives, the thesis proposes to: a) discuss the Information Retrieval process, highlighting the relationship between search expression and retrieved results; b) discuss the concepts and characteristics of ontologies, exploring their usefulness in the processes of information retrieval, expansion and query contextualization; c) develop a method of search contextualization, through the terms that make up the query and from that the query expansion from the identification of related concepts (generic, specific and equivalent) to an initial concept, using domain ontologies for both. d) implement a prototype of a Web information retrieval system to demonstrate the use of the proposed method in a controlled environment; e) analyze the results obtained in relation to relevance of the query. This research is classified as qualitative of an applied nature, and it was divided into two stages. In the first one, an exploratory bibliographical research was carried out, which provided the theoretical basis to support the study and raise the main problems related to the task of retrieving information. Afterwards, the applied research consisted of the proposal of the method in response to the identified problem. Among the main results is the proposition of the method of contextualization and query expansion and the development of a software called ContextOnSearch, a Web search engine with an interface based on a free text box that implements the proposed method. A collection of 481 documents from the Jornal de Pediatria and published between 2016 and 2020 was created to carry out the tests. An ontology from the biomedical area called Pediatric Terminology was also used. The results indicate an increase in recall without significant losses in precision and an improvement in ranking by the relevance of the results. It is concluded that the use of user support tools in search engines can facilitate the formulation of search expressions and enable improvements in communication between users and systems, achieving more relevant results and contributing to the information retrieval process.Não recebi financiamentoUniversidade Estadual Paulista (Unesp)Ferneda, Edberto [UNESP]Universidade Estadual Paulista (Unesp)Pansani Junior, Eder Antonio2021-07-27T19:34:18Z2021-07-27T19:34:18Z2021-05-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://hdl.handle.net/11449/21369133004110043P4porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-08-12T18:32:06Zoai:repositorio.unesp.br:11449/213691Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-12T18:32:06Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false |
dc.title.none.fl_str_mv |
Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínio Contextualization and expansion of queries in information retrieval systems: a method based on domain ontologies |
title |
Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínio |
spellingShingle |
Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínio Pansani Junior, Eder Antonio Recuperação da informação Ontologias de domínio Contextualização da expressão de busca Expansão de consultas ContextOnSearch Information retrieval Domain ontologies Search expression contextualization Query expansion |
title_short |
Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínio |
title_full |
Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínio |
title_fullStr |
Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínio |
title_full_unstemmed |
Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínio |
title_sort |
Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínio |
author |
Pansani Junior, Eder Antonio |
author_facet |
Pansani Junior, Eder Antonio |
author_role |
author |
dc.contributor.none.fl_str_mv |
Ferneda, Edberto [UNESP] Universidade Estadual Paulista (Unesp) |
dc.contributor.author.fl_str_mv |
Pansani Junior, Eder Antonio |
dc.subject.por.fl_str_mv |
Recuperação da informação Ontologias de domínio Contextualização da expressão de busca Expansão de consultas ContextOnSearch Information retrieval Domain ontologies Search expression contextualization Query expansion |
topic |
Recuperação da informação Ontologias de domínio Contextualização da expressão de busca Expansão de consultas ContextOnSearch Information retrieval Domain ontologies Search expression contextualization Query expansion |
description |
Um sistema de recuperação de informação é formado por três elementos básicos: as representações dos documentos, a expressão de busca do usuário e alguma forma de comparação entre esses dois elementos. Por um lado, o acervo é constituído em um momento anterior às buscas, e cada documento pode ser representado utilizando técnicas automatizadas. Por outro lado, a necessidade de informação do usuário só é percebida após a sua enunciação por meio de expressão de busca. A elaboração de uma expressão de busca, que represente de forma precisa a necessidade de informação de um usuário pode ser uma tarefa complexa. Nesse sentido, as ontologias no papel de instrumentos de controle de vocabulário podem ser utilizadas no aprimoramento desta tarefa. As ontologias possibilitam, entre outras funções, a contextualização da busca, utilizando sua estrutura terminológica para procurar pelos termos/conceitos que compõem à consulta pode-se determinar o contexto da busca. A partir desse contexto, selecionado pelo usuário e representado por uma ontologia, pode-se expandir a consulta utilizando termos/conceitos relacionados. Desta forma, esta pesquisa tem como objetivo geral a proposição de um método interativo de contextualização da necessidade de informação e expansão de consultas em sistemas de recuperação de informação utilizando a estrutura terminológica das ontologias de domínio. Como objetivos específicos, a tese se propõe a: a) discutir o processo de Recuperação de Informação, evidenciando a relação entre a expressão de busca e os resultados recuperados; b) discutir os conceitos e características das ontologias, explorando sua utilidade nos processos de recuperação de informação, expansão e contextualização das consultas; c) desenvolver um método de contextualização da busca, por meio dos termos que compõem a consulta e expansão da consulta a partir da identificação de conceitos relacionados (genéricos, específicos e equivalentes) à um conceito inicial, utilizando para ambos ontologias de domínio. d) implementar um protótipo de um sistema de recuperação de informação Web para demonstrar a utilização do método proposto em um ambiente controlado; e) analisar os resultados obtidos em relação à relevância com a expressão de busca. Esta pesquisa é classificada como qualitativa de natureza aplicada, e foi dividida em duas etapas. Na primeira foi elaborada uma pesquisa bibliográfica de caráter exploratório, que proporcionou o embasamento teórico para fundamentar o estudo e levantar os principais problemas relacionados à tarefa de recuperar informações. Na sequência, a pesquisa aplicada consistiu na proposição do método em resposta à problemática identificada. Dentre os principais resultados está a proposição do método de contextualização e expansão de consultas e o desenvolvimento de um software denominado ContextOnSearch, um mecanismo de busca Web com uma interface baseada em uma caixa de texto livre que implementa o método proposto. Para a realização dos testes foi criada uma coleção composta por 481 documentos oriundos do Jornal de Pediatria e publicados entre os anos 2016 e 2020. Foi utilizada ainda uma ontologia da área biomédica denominada Pediatric Terminology. Os resultados indicam um aumento da revocação sem perdas significativas na precisão e uma melhoria na classificação pela relevância dos resultados. Conclui-se que o uso de ferramentas de apoio ao usuário em mecanismos de busca pode facilitar a formulação de expressões de busca e possibilitar melhorias na comunicação entre usuários e sistemas, alcançado resultados mais relevantes e contribuindo com o processo de recuperação de informação. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-07-27T19:34:18Z 2021-07-27T19:34:18Z 2021-05-27 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/11449/213691 33004110043P4 |
url |
http://hdl.handle.net/11449/213691 |
identifier_str_mv |
33004110043P4 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP |
instname_str |
Universidade Estadual Paulista (UNESP) |
instacron_str |
UNESP |
institution |
UNESP |
reponame_str |
Repositório Institucional da UNESP |
collection |
Repositório Institucional da UNESP |
repository.name.fl_str_mv |
Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP) |
repository.mail.fl_str_mv |
|
_version_ |
1808128142322171904 |