Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínio

Detalhes bibliográficos
Autor(a) principal: Pansani Junior, Eder Antonio
Data de Publicação: 2021
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UNESP
Texto Completo: http://hdl.handle.net/11449/213691
Resumo: Um sistema de recuperação de informação é formado por três elementos básicos: as representações dos documentos, a expressão de busca do usuário e alguma forma de comparação entre esses dois elementos. Por um lado, o acervo é constituído em um momento anterior às buscas, e cada documento pode ser representado utilizando técnicas automatizadas. Por outro lado, a necessidade de informação do usuário só é percebida após a sua enunciação por meio de expressão de busca. A elaboração de uma expressão de busca, que represente de forma precisa a necessidade de informação de um usuário pode ser uma tarefa complexa. Nesse sentido, as ontologias no papel de instrumentos de controle de vocabulário podem ser utilizadas no aprimoramento desta tarefa. As ontologias possibilitam, entre outras funções, a contextualização da busca, utilizando sua estrutura terminológica para procurar pelos termos/conceitos que compõem à consulta pode-se determinar o contexto da busca. A partir desse contexto, selecionado pelo usuário e representado por uma ontologia, pode-se expandir a consulta utilizando termos/conceitos relacionados. Desta forma, esta pesquisa tem como objetivo geral a proposição de um método interativo de contextualização da necessidade de informação e expansão de consultas em sistemas de recuperação de informação utilizando a estrutura terminológica das ontologias de domínio. Como objetivos específicos, a tese se propõe a: a) discutir o processo de Recuperação de Informação, evidenciando a relação entre a expressão de busca e os resultados recuperados; b) discutir os conceitos e características das ontologias, explorando sua utilidade nos processos de recuperação de informação, expansão e contextualização das consultas; c) desenvolver um método de contextualização da busca, por meio dos termos que compõem a consulta e expansão da consulta a partir da identificação de conceitos relacionados (genéricos, específicos e equivalentes) à um conceito inicial, utilizando para ambos ontologias de domínio. d) implementar um protótipo de um sistema de recuperação de informação Web para demonstrar a utilização do método proposto em um ambiente controlado; e) analisar os resultados obtidos em relação à relevância com a expressão de busca. Esta pesquisa é classificada como qualitativa de natureza aplicada, e foi dividida em duas etapas. Na primeira foi elaborada uma pesquisa bibliográfica de caráter exploratório, que proporcionou o embasamento teórico para fundamentar o estudo e levantar os principais problemas relacionados à tarefa de recuperar informações. Na sequência, a pesquisa aplicada consistiu na proposição do método em resposta à problemática identificada. Dentre os principais resultados está a proposição do método de contextualização e expansão de consultas e o desenvolvimento de um software denominado ContextOnSearch, um mecanismo de busca Web com uma interface baseada em uma caixa de texto livre que implementa o método proposto. Para a realização dos testes foi criada uma coleção composta por 481 documentos oriundos do Jornal de Pediatria e publicados entre os anos 2016 e 2020. Foi utilizada ainda uma ontologia da área biomédica denominada Pediatric Terminology. Os resultados indicam um aumento da revocação sem perdas significativas na precisão e uma melhoria na classificação pela relevância dos resultados. Conclui-se que o uso de ferramentas de apoio ao usuário em mecanismos de busca pode facilitar a formulação de expressões de busca e possibilitar melhorias na comunicação entre usuários e sistemas, alcançado resultados mais relevantes e contribuindo com o processo de recuperação de informação.
id UNSP_3a6b4b05d18cd0ca622e6b39f12ee701
oai_identifier_str oai:repositorio.unesp.br:11449/213691
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str 2946
spelling Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínioContextualization and expansion of queries in information retrieval systems: a method based on domain ontologiesRecuperação da informaçãoOntologias de domínioContextualização da expressão de buscaExpansão de consultasContextOnSearchInformation retrievalDomain ontologiesSearch expression contextualizationQuery expansionUm sistema de recuperação de informação é formado por três elementos básicos: as representações dos documentos, a expressão de busca do usuário e alguma forma de comparação entre esses dois elementos. Por um lado, o acervo é constituído em um momento anterior às buscas, e cada documento pode ser representado utilizando técnicas automatizadas. Por outro lado, a necessidade de informação do usuário só é percebida após a sua enunciação por meio de expressão de busca. A elaboração de uma expressão de busca, que represente de forma precisa a necessidade de informação de um usuário pode ser uma tarefa complexa. Nesse sentido, as ontologias no papel de instrumentos de controle de vocabulário podem ser utilizadas no aprimoramento desta tarefa. As ontologias possibilitam, entre outras funções, a contextualização da busca, utilizando sua estrutura terminológica para procurar pelos termos/conceitos que compõem à consulta pode-se determinar o contexto da busca. A partir desse contexto, selecionado pelo usuário e representado por uma ontologia, pode-se expandir a consulta utilizando termos/conceitos relacionados. Desta forma, esta pesquisa tem como objetivo geral a proposição de um método interativo de contextualização da necessidade de informação e expansão de consultas em sistemas de recuperação de informação utilizando a estrutura terminológica das ontologias de domínio. Como objetivos específicos, a tese se propõe a: a) discutir o processo de Recuperação de Informação, evidenciando a relação entre a expressão de busca e os resultados recuperados; b) discutir os conceitos e características das ontologias, explorando sua utilidade nos processos de recuperação de informação, expansão e contextualização das consultas; c) desenvolver um método de contextualização da busca, por meio dos termos que compõem a consulta e expansão da consulta a partir da identificação de conceitos relacionados (genéricos, específicos e equivalentes) à um conceito inicial, utilizando para ambos ontologias de domínio. d) implementar um protótipo de um sistema de recuperação de informação Web para demonstrar a utilização do método proposto em um ambiente controlado; e) analisar os resultados obtidos em relação à relevância com a expressão de busca. Esta pesquisa é classificada como qualitativa de natureza aplicada, e foi dividida em duas etapas. Na primeira foi elaborada uma pesquisa bibliográfica de caráter exploratório, que proporcionou o embasamento teórico para fundamentar o estudo e levantar os principais problemas relacionados à tarefa de recuperar informações. Na sequência, a pesquisa aplicada consistiu na proposição do método em resposta à problemática identificada. Dentre os principais resultados está a proposição do método de contextualização e expansão de consultas e o desenvolvimento de um software denominado ContextOnSearch, um mecanismo de busca Web com uma interface baseada em uma caixa de texto livre que implementa o método proposto. Para a realização dos testes foi criada uma coleção composta por 481 documentos oriundos do Jornal de Pediatria e publicados entre os anos 2016 e 2020. Foi utilizada ainda uma ontologia da área biomédica denominada Pediatric Terminology. Os resultados indicam um aumento da revocação sem perdas significativas na precisão e uma melhoria na classificação pela relevância dos resultados. Conclui-se que o uso de ferramentas de apoio ao usuário em mecanismos de busca pode facilitar a formulação de expressões de busca e possibilitar melhorias na comunicação entre usuários e sistemas, alcançado resultados mais relevantes e contribuindo com o processo de recuperação de informação.An information retrieval system is made up of three basic elements: the documents representations, a user's search expression and some form of comparison between these two elements. On one hand, the collection is composed a moment before the searches, and each document can be represented using automated techniques. On the other hand, the user's need for information is only noticed after its enunciation through a query. The elaboration of a search expression that accurately represents a user's information needs can be a complex task. In this sense, ontologies in the role of vocabulary control instruments can be used to improve this task. Ontologies allow, the contextualization of the search, among other functions, using its terminological structure to search for the terms/concepts that make up the query, it is possible to determine the context of the search. From this context, which was selected by the user and represented by an ontology, the query can be expanded using related terms/concepts. Thus, this research aims to propose an interactive method of contextualizing the information needs and query expansion in information retrieval systems using the terminological structure of domain ontologies. As specific objectives, the thesis proposes to: a) discuss the Information Retrieval process, highlighting the relationship between search expression and retrieved results; b) discuss the concepts and characteristics of ontologies, exploring their usefulness in the processes of information retrieval, expansion and query contextualization; c) develop a method of search contextualization, through the terms that make up the query and from that the query expansion from the identification of related concepts (generic, specific and equivalent) to an initial concept, using domain ontologies for both. d) implement a prototype of a Web information retrieval system to demonstrate the use of the proposed method in a controlled environment; e) analyze the results obtained in relation to relevance of the query. This research is classified as qualitative of an applied nature, and it was divided into two stages. In the first one, an exploratory bibliographical research was carried out, which provided the theoretical basis to support the study and raise the main problems related to the task of retrieving information. Afterwards, the applied research consisted of the proposal of the method in response to the identified problem. Among the main results is the proposition of the method of contextualization and query expansion and the development of a software called ContextOnSearch, a Web search engine with an interface based on a free text box that implements the proposed method. A collection of 481 documents from the Jornal de Pediatria and published between 2016 and 2020 was created to carry out the tests. An ontology from the biomedical area called Pediatric Terminology was also used. The results indicate an increase in recall without significant losses in precision and an improvement in ranking by the relevance of the results. It is concluded that the use of user support tools in search engines can facilitate the formulation of search expressions and enable improvements in communication between users and systems, achieving more relevant results and contributing to the information retrieval process.Não recebi financiamentoUniversidade Estadual Paulista (Unesp)Ferneda, Edberto [UNESP]Universidade Estadual Paulista (Unesp)Pansani Junior, Eder Antonio2021-07-27T19:34:18Z2021-07-27T19:34:18Z2021-05-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://hdl.handle.net/11449/21369133004110043P4porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-08-12T18:32:06Zoai:repositorio.unesp.br:11449/213691Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-12T18:32:06Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínio
Contextualization and expansion of queries in information retrieval systems: a method based on domain ontologies
title Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínio
spellingShingle Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínio
Pansani Junior, Eder Antonio
Recuperação da informação
Ontologias de domínio
Contextualização da expressão de busca
Expansão de consultas
ContextOnSearch
Information retrieval
Domain ontologies
Search expression contextualization
Query expansion
title_short Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínio
title_full Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínio
title_fullStr Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínio
title_full_unstemmed Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínio
title_sort Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínio
author Pansani Junior, Eder Antonio
author_facet Pansani Junior, Eder Antonio
author_role author
dc.contributor.none.fl_str_mv Ferneda, Edberto [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Pansani Junior, Eder Antonio
dc.subject.por.fl_str_mv Recuperação da informação
Ontologias de domínio
Contextualização da expressão de busca
Expansão de consultas
ContextOnSearch
Information retrieval
Domain ontologies
Search expression contextualization
Query expansion
topic Recuperação da informação
Ontologias de domínio
Contextualização da expressão de busca
Expansão de consultas
ContextOnSearch
Information retrieval
Domain ontologies
Search expression contextualization
Query expansion
description Um sistema de recuperação de informação é formado por três elementos básicos: as representações dos documentos, a expressão de busca do usuário e alguma forma de comparação entre esses dois elementos. Por um lado, o acervo é constituído em um momento anterior às buscas, e cada documento pode ser representado utilizando técnicas automatizadas. Por outro lado, a necessidade de informação do usuário só é percebida após a sua enunciação por meio de expressão de busca. A elaboração de uma expressão de busca, que represente de forma precisa a necessidade de informação de um usuário pode ser uma tarefa complexa. Nesse sentido, as ontologias no papel de instrumentos de controle de vocabulário podem ser utilizadas no aprimoramento desta tarefa. As ontologias possibilitam, entre outras funções, a contextualização da busca, utilizando sua estrutura terminológica para procurar pelos termos/conceitos que compõem à consulta pode-se determinar o contexto da busca. A partir desse contexto, selecionado pelo usuário e representado por uma ontologia, pode-se expandir a consulta utilizando termos/conceitos relacionados. Desta forma, esta pesquisa tem como objetivo geral a proposição de um método interativo de contextualização da necessidade de informação e expansão de consultas em sistemas de recuperação de informação utilizando a estrutura terminológica das ontologias de domínio. Como objetivos específicos, a tese se propõe a: a) discutir o processo de Recuperação de Informação, evidenciando a relação entre a expressão de busca e os resultados recuperados; b) discutir os conceitos e características das ontologias, explorando sua utilidade nos processos de recuperação de informação, expansão e contextualização das consultas; c) desenvolver um método de contextualização da busca, por meio dos termos que compõem a consulta e expansão da consulta a partir da identificação de conceitos relacionados (genéricos, específicos e equivalentes) à um conceito inicial, utilizando para ambos ontologias de domínio. d) implementar um protótipo de um sistema de recuperação de informação Web para demonstrar a utilização do método proposto em um ambiente controlado; e) analisar os resultados obtidos em relação à relevância com a expressão de busca. Esta pesquisa é classificada como qualitativa de natureza aplicada, e foi dividida em duas etapas. Na primeira foi elaborada uma pesquisa bibliográfica de caráter exploratório, que proporcionou o embasamento teórico para fundamentar o estudo e levantar os principais problemas relacionados à tarefa de recuperar informações. Na sequência, a pesquisa aplicada consistiu na proposição do método em resposta à problemática identificada. Dentre os principais resultados está a proposição do método de contextualização e expansão de consultas e o desenvolvimento de um software denominado ContextOnSearch, um mecanismo de busca Web com uma interface baseada em uma caixa de texto livre que implementa o método proposto. Para a realização dos testes foi criada uma coleção composta por 481 documentos oriundos do Jornal de Pediatria e publicados entre os anos 2016 e 2020. Foi utilizada ainda uma ontologia da área biomédica denominada Pediatric Terminology. Os resultados indicam um aumento da revocação sem perdas significativas na precisão e uma melhoria na classificação pela relevância dos resultados. Conclui-se que o uso de ferramentas de apoio ao usuário em mecanismos de busca pode facilitar a formulação de expressões de busca e possibilitar melhorias na comunicação entre usuários e sistemas, alcançado resultados mais relevantes e contribuindo com o processo de recuperação de informação.
publishDate 2021
dc.date.none.fl_str_mv 2021-07-27T19:34:18Z
2021-07-27T19:34:18Z
2021-05-27
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11449/213691
33004110043P4
url http://hdl.handle.net/11449/213691
identifier_str_mv 33004110043P4
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_ 1808128142322171904