A expansão de queries sobre terminologias biomédicas: uma comparação de artefatos de representação do conhecimento para Recuperação de Informações
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFMG |
Texto Completo: | http://hdl.handle.net/1843/34313 https://orcid.org/0000-0003-1690-2044 |
Resumo: | The expansion of queries is a technique that allows to expand the representation capacity of the original query, adding related terms, in order to increase a syntactic correspondence between the document and the query. The technique can be applied to controlled vocabularies of all types. This thesis uses clinical terminology to study the possibilities of expanding queries in the Information Retrieval (IR) of scientific articles. The general objective is to prove a comparison between knowledge representation artifacts for information retrieval. Although certain terminologies may belong to the same domain of knowledge, their features are organized in different models. While a MeSH uses traditional Knowledge Organization structures, in the sense of its origin in Librarianship; SNOMED CT uses formal constructs, namely, ontological axioms to define terms and relationships. However, much of current practice and literature points to IR based on statistical techniques as the best solution, there are also indications that justify the use of specialized terminology. This perception influenced the present work in the direction of evidencing such possibilities from a case study to compare two medical terminologies, in the retrieval of scientific articles. Some preliminary questions involved thinking about whether the use of terminology could extend document recall, or how different the application of different terminologies from the same domain to the same data could be set. To answer these and other questions, a software was built to apply queries and collect the qualitative results from the two vocabularies already mentioned. From the point of view of methodology, the work addresses, through a case study, the capture and structuring of biomedical terminologies, the acquisition and pre-processing of medical scientific articles, as well as the design of an algorithm capable of performing submitted queries from common terms in both terminologies. In terms of results, the findings point to a greater recall for the MeSH terminology, where the comparative analysis allowed to infer important principles such as: a) the number of words per term, b) the syntactic representation and c) the possibilities of terminological structuring, as main influences in order to suggest good practices - in the context of IR - for the scientific community that develops and maintains such artifacts. As additional contributions, beyond the software developed, the discussions are relevant to Information Science (IS), in a context where the publication of scientific articles has increased significantly, and the terminologies - artifacts developed at IS - can provide a differentiated model in information retrieval. |
id |
UFMG_008da87f69bc343a3ff0c1146f733113 |
---|---|
oai_identifier_str |
oai:repositorio.ufmg.br:1843/34313 |
network_acronym_str |
UFMG |
network_name_str |
Repositório Institucional da UFMG |
repository_id_str |
|
spelling |
A expansão de queries sobre terminologias biomédicas: uma comparação de artefatos de representação do conhecimento para Recuperação de InformaçõesThe query expansion on biomedical terminologies: a comparison of knowledge representation artifacts for Information RetrievalRecuperação da InformaçãoArtefatos terminológicosExpansão de queryCorrespondência textualCiência da informaçãoRecuperação da informaçãoRepresentação do conhecimento (Teoria da informação)Medicina - TerminologiaOntologias (Recuperação da informação)TesaurosThe expansion of queries is a technique that allows to expand the representation capacity of the original query, adding related terms, in order to increase a syntactic correspondence between the document and the query. The technique can be applied to controlled vocabularies of all types. This thesis uses clinical terminology to study the possibilities of expanding queries in the Information Retrieval (IR) of scientific articles. The general objective is to prove a comparison between knowledge representation artifacts for information retrieval. Although certain terminologies may belong to the same domain of knowledge, their features are organized in different models. While a MeSH uses traditional Knowledge Organization structures, in the sense of its origin in Librarianship; SNOMED CT uses formal constructs, namely, ontological axioms to define terms and relationships. However, much of current practice and literature points to IR based on statistical techniques as the best solution, there are also indications that justify the use of specialized terminology. This perception influenced the present work in the direction of evidencing such possibilities from a case study to compare two medical terminologies, in the retrieval of scientific articles. Some preliminary questions involved thinking about whether the use of terminology could extend document recall, or how different the application of different terminologies from the same domain to the same data could be set. To answer these and other questions, a software was built to apply queries and collect the qualitative results from the two vocabularies already mentioned. From the point of view of methodology, the work addresses, through a case study, the capture and structuring of biomedical terminologies, the acquisition and pre-processing of medical scientific articles, as well as the design of an algorithm capable of performing submitted queries from common terms in both terminologies. In terms of results, the findings point to a greater recall for the MeSH terminology, where the comparative analysis allowed to infer important principles such as: a) the number of words per term, b) the syntactic representation and c) the possibilities of terminological structuring, as main influences in order to suggest good practices - in the context of IR - for the scientific community that develops and maintains such artifacts. As additional contributions, beyond the software developed, the discussions are relevant to Information Science (IS), in a context where the publication of scientific articles has increased significantly, and the terminologies - artifacts developed at IS - can provide a differentiated model in information retrieval.A expansão de queries, ou consultas, é uma técnica que permite ampliar a capacidade de representação da consulta original, adicionando termos relacionados, de forma a incrementar a correspondência sintática entre o documento e a consulta. A técnica pode ser aplicada em vocabulários controlados de todos os tipos. A presente tese se utiliza de terminologias clínicas para estudar as possibilidades de expansão de queries na Recuperação da Informação (RI) de artigos científicos. O objetivo geral é investigar a revocação de artigos científicos no processo de recuperação da informação utilizando dois artefatos de representação da área médica: SNOMED CT e MeSH. Ainda que certas terminologias possam pertencer ao mesmo domínio do conhecimento, suas estruturas correspondentes são organizadas em diferentes modelos. Enquanto a MeSH utiliza estruturas tradicionais de Organização do Conhecimento, no sentido de sua origem na Biblioteconomia; a SNOMED CT utiliza constructos formais, a saber, axiomas ontológicos para definir termos e relações. Embora muito da prática e da literatura atual apontem a RI baseada em técnicas estatísticas como a melhor solução, há também indicações que justificam o uso de terminologias especializadas. Essa percepção influenciou o presente trabalho na direção de evidenciar tais possibilidades a partir de um estudo de caso para comparar duas terminologias da área médica, na recuperação de artigos científicos. Algumas questões preliminares envolviam pensar se o uso de uma terminologia poderia ampliar a revocação de documentos, ou o quão diferente seria a aplicação de diferentes terminologias do mesmo domínio no mesmo conjunto de dados. Para responder a essas e outras questões, foi desenvolvido um software para aplicar queries e coletar os resultados qualitativos dos dois vocabulários já mencionados. Do ponto de vista da metodologia, o trabalho aborda, através de um estudo de caso, a captação e a estruturação de terminologias biomédicas, a aquisição e o pré-processamento de artigos científicos médicos, bem como a concepção de um algoritmo capaz realizar queries submetidas a partir de termos comuns em ambas terminologias. Em termos de resultados, os achados apontam maior revocação para a terminologia MeSH, onde a análise comparativa permitiu inferir princípios importantes como: a) a quantidade de palavras por termo, b) a representação sintática e c) as possibilidades de estruturação terminológica, como principais influências fim de sugerir boas práticas - no contexto da RI - para a comunidade científica que desenvolve e mantém tais artefatos. Como contribuições adicionais, além do software desenvolvido, as discussões são relevantes para a Ciência da Informação (CI), em um contexto onde a publicação de artigos científicos vem aumentando significativamente, e as terminologias - artefatos desenvolvidos na CI - podem proporcionar um modelo diferenciado na recuperação da informação.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade Federal de Minas GeraisBrasilECI - ESCOLA DE CIENCIA DA INFORMAÇÃOPrograma de Pós-Graduação em Gestão e Organização do ConhecimentoUFMGMaurício Barcellos Almeidahttp://lattes.cnpq.br/5218069708058487Benildes Coura Moreira dos Santos MaculanDaniela Lucas da Silva LemosFabrício Martins MendonçaFernanda FarinelliMarcus Vinícius Carvalho GuelpeliEduardo Ribeiro Felipe2020-10-27T16:37:28Z2020-10-27T16:37:28Z2020-08-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://hdl.handle.net/1843/34313https://orcid.org/0000-0003-1690-2044porhttp://creativecommons.org/licenses/by-nc-nd/3.0/pt/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMG2020-10-27T16:37:28Zoai:repositorio.ufmg.br:1843/34313Repositório InstitucionalPUBhttps://repositorio.ufmg.br/oairepositorio@ufmg.bropendoar:2020-10-27T16:37:28Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.none.fl_str_mv |
A expansão de queries sobre terminologias biomédicas: uma comparação de artefatos de representação do conhecimento para Recuperação de Informações The query expansion on biomedical terminologies: a comparison of knowledge representation artifacts for Information Retrieval |
title |
A expansão de queries sobre terminologias biomédicas: uma comparação de artefatos de representação do conhecimento para Recuperação de Informações |
spellingShingle |
A expansão de queries sobre terminologias biomédicas: uma comparação de artefatos de representação do conhecimento para Recuperação de Informações Eduardo Ribeiro Felipe Recuperação da Informação Artefatos terminológicos Expansão de query Correspondência textual Ciência da informação Recuperação da informação Representação do conhecimento (Teoria da informação) Medicina - Terminologia Ontologias (Recuperação da informação) Tesauros |
title_short |
A expansão de queries sobre terminologias biomédicas: uma comparação de artefatos de representação do conhecimento para Recuperação de Informações |
title_full |
A expansão de queries sobre terminologias biomédicas: uma comparação de artefatos de representação do conhecimento para Recuperação de Informações |
title_fullStr |
A expansão de queries sobre terminologias biomédicas: uma comparação de artefatos de representação do conhecimento para Recuperação de Informações |
title_full_unstemmed |
A expansão de queries sobre terminologias biomédicas: uma comparação de artefatos de representação do conhecimento para Recuperação de Informações |
title_sort |
A expansão de queries sobre terminologias biomédicas: uma comparação de artefatos de representação do conhecimento para Recuperação de Informações |
author |
Eduardo Ribeiro Felipe |
author_facet |
Eduardo Ribeiro Felipe |
author_role |
author |
dc.contributor.none.fl_str_mv |
Maurício Barcellos Almeida http://lattes.cnpq.br/5218069708058487 Benildes Coura Moreira dos Santos Maculan Daniela Lucas da Silva Lemos Fabrício Martins Mendonça Fernanda Farinelli Marcus Vinícius Carvalho Guelpeli |
dc.contributor.author.fl_str_mv |
Eduardo Ribeiro Felipe |
dc.subject.por.fl_str_mv |
Recuperação da Informação Artefatos terminológicos Expansão de query Correspondência textual Ciência da informação Recuperação da informação Representação do conhecimento (Teoria da informação) Medicina - Terminologia Ontologias (Recuperação da informação) Tesauros |
topic |
Recuperação da Informação Artefatos terminológicos Expansão de query Correspondência textual Ciência da informação Recuperação da informação Representação do conhecimento (Teoria da informação) Medicina - Terminologia Ontologias (Recuperação da informação) Tesauros |
description |
The expansion of queries is a technique that allows to expand the representation capacity of the original query, adding related terms, in order to increase a syntactic correspondence between the document and the query. The technique can be applied to controlled vocabularies of all types. This thesis uses clinical terminology to study the possibilities of expanding queries in the Information Retrieval (IR) of scientific articles. The general objective is to prove a comparison between knowledge representation artifacts for information retrieval. Although certain terminologies may belong to the same domain of knowledge, their features are organized in different models. While a MeSH uses traditional Knowledge Organization structures, in the sense of its origin in Librarianship; SNOMED CT uses formal constructs, namely, ontological axioms to define terms and relationships. However, much of current practice and literature points to IR based on statistical techniques as the best solution, there are also indications that justify the use of specialized terminology. This perception influenced the present work in the direction of evidencing such possibilities from a case study to compare two medical terminologies, in the retrieval of scientific articles. Some preliminary questions involved thinking about whether the use of terminology could extend document recall, or how different the application of different terminologies from the same domain to the same data could be set. To answer these and other questions, a software was built to apply queries and collect the qualitative results from the two vocabularies already mentioned. From the point of view of methodology, the work addresses, through a case study, the capture and structuring of biomedical terminologies, the acquisition and pre-processing of medical scientific articles, as well as the design of an algorithm capable of performing submitted queries from common terms in both terminologies. In terms of results, the findings point to a greater recall for the MeSH terminology, where the comparative analysis allowed to infer important principles such as: a) the number of words per term, b) the syntactic representation and c) the possibilities of terminological structuring, as main influences in order to suggest good practices - in the context of IR - for the scientific community that develops and maintains such artifacts. As additional contributions, beyond the software developed, the discussions are relevant to Information Science (IS), in a context where the publication of scientific articles has increased significantly, and the terminologies - artifacts developed at IS - can provide a differentiated model in information retrieval. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-10-27T16:37:28Z 2020-10-27T16:37:28Z 2020-08-27 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1843/34313 https://orcid.org/0000-0003-1690-2044 |
url |
http://hdl.handle.net/1843/34313 https://orcid.org/0000-0003-1690-2044 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/pt/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/pt/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais Brasil ECI - ESCOLA DE CIENCIA DA INFORMAÇÃO Programa de Pós-Graduação em Gestão e Organização do Conhecimento UFMG |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais Brasil ECI - ESCOLA DE CIENCIA DA INFORMAÇÃO Programa de Pós-Graduação em Gestão e Organização do Conhecimento UFMG |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Repositório Institucional da UFMG |
collection |
Repositório Institucional da UFMG |
repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
repositorio@ufmg.br |
_version_ |
1816829639255916544 |