Análise de logs de busca como fonte informacional para atualização de vocabulário controlado em repositórios institucionais
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UNESP |
Texto Completo: | http://hdl.handle.net/11449/236389 |
Resumo: | Os Repositórios Institucionais (RI) têm papel fundamental na divulgação do conhecimento, especialmente das publicações acadêmicas. Executados em diversas plataformas de software, com grande diversidade de sistemas de instalação, configuração e suporte, os RI remodelaram as formas de armazenamento, organização e recuperação de materiais, trazendo maior agilidade para todos esses processos. No entanto, disponibilizar recursos on-line para recuperação direta dos usuários é desafiador, na medida em que se faz necessário combinar o processo técnico realizado internamente nas bibliotecas com as necessidades dos usuários externos. Nessa perspectiva, a falta de articulação entre os vocabulários utilizados durante a indexação e os vocabulários utilizados pelos usuários tende a provocar ruídos e fracassos nos processos de busca e recuperação. Em vista disso, esta pesquisa teve como objetivo realizar estudo teórico e metodológico sobre a análise de logs, suas funções e sua utilização para atualização de vocabulários controlados para repositórios institucionais. Para tanto, realizou-se pesquisa qualitativa e quantitativa e seu desenvolvimento se realizou em duas etapas: pesquisa exploratória e pesquisa descritiva. A pesquisa exploratória utilizou levantamento bibliográfico e análise documental e a pesquisa descritiva focalizou o trabalho com os dados coletados, para realizar análises as quais subsidiam o desenvolvimento de uma metodologia empírica para a análise de logs, baseada no modelo teórico de Jansen (2008). Assim, o processo descritivo e analítico resultou na proposta metodológica para atualização de vocabulário controlado por meio da análise de logs de busca, implementada na ferramenta computacional desenvolvida nesta Tese: a RILogUser (Institutional Repository for User Log), disponível em: https://github.com/ikatahira/Doutorado, uma ferramenta capaz de, a partir de um grande volume de dados, propiciar a seleção de dados relevantes e a comparação de vocabulários empregados por diferentes agentes de maneira produtiva. Entre as funcionalidades e características dessa ferramenta, destacam-se: (a) apresentação de uma visão sistemática do processo de análise de logs de buscas dos usuários; (b) possibilidade de integração com outras listagens de palavras, possibilitando a aplicação em RI diferentes; (c) apresentação de forma detalhada das etapas com exemplificações e seus respectivos produtos; (d) possibilidade de criação de vários vocabulários (baseado nos logs de buscas, palavras-chave dos autores e termos do Tesauro Unesp). A análise da lista de palavras oriundas dos logs de busca dos usuários, comparada à lista de palavras-chave atribuídas pelos autores aos documentos indexados no RI Unesp, viabilizou a obtenção de uma lista de expressões de busca contendo palavras simples, palavras compostas e frases, as quais compõem a lista de 5.826 palavras exclusivas às pesquisas dos usuários e 760 palavras comuns aos logs de pesquisas dos usuários e palavras-chave dos autores, ambas as listagens candidatas à atualização do vocabulário controlado Tesauro Unesp. Dessa forma, a análise de logs se apresentou como fonte confiável de informações, as quais, gerenciadas por estratégias computacionais, têm amplo potencial para otimizar instrumentos de representação, a fim de beneficiar os processos de busca e, consequentemente, de recuperação de informações. Os resultados experimentais, obtidos a partir da metodologia desenvolvida, se mostrou eficaz por viabilizar uma grande depuração de expressões de busca de usuários e palavras-chave dos autores, que produziu um corpus terminológico consistente proveniente diretamente da linguagem utilizada no RI, como fonte informacional para atualização de vocabulário. |
id |
UNSP_bc43b59e96faac6d46e70751af1c9dee |
---|---|
oai_identifier_str |
oai:repositorio.unesp.br:11449/236389 |
network_acronym_str |
UNSP |
network_name_str |
Repositório Institucional da UNESP |
repository_id_str |
2946 |
spelling |
Análise de logs de busca como fonte informacional para atualização de vocabulário controlado em repositórios institucionaisAnalysis of search logs as a source of information for controlled vocabulary update in repository institutionalAnálisis de registros de búsqueda como fuente de información para actualización de vocabulario controlado en repositorio institucionalAnálise de logsRepositórios institucionaisAnálise de log de transaçõesVocabulário controladoLogs de buscasLog analysisInstitutional repositoriesTransaction log analysisControlled vocabularySearch logsAnálisis de registroRepositorios institucionalesAnálisis de registro de transaccionesRegistros de búsquedaOs Repositórios Institucionais (RI) têm papel fundamental na divulgação do conhecimento, especialmente das publicações acadêmicas. Executados em diversas plataformas de software, com grande diversidade de sistemas de instalação, configuração e suporte, os RI remodelaram as formas de armazenamento, organização e recuperação de materiais, trazendo maior agilidade para todos esses processos. No entanto, disponibilizar recursos on-line para recuperação direta dos usuários é desafiador, na medida em que se faz necessário combinar o processo técnico realizado internamente nas bibliotecas com as necessidades dos usuários externos. Nessa perspectiva, a falta de articulação entre os vocabulários utilizados durante a indexação e os vocabulários utilizados pelos usuários tende a provocar ruídos e fracassos nos processos de busca e recuperação. Em vista disso, esta pesquisa teve como objetivo realizar estudo teórico e metodológico sobre a análise de logs, suas funções e sua utilização para atualização de vocabulários controlados para repositórios institucionais. Para tanto, realizou-se pesquisa qualitativa e quantitativa e seu desenvolvimento se realizou em duas etapas: pesquisa exploratória e pesquisa descritiva. A pesquisa exploratória utilizou levantamento bibliográfico e análise documental e a pesquisa descritiva focalizou o trabalho com os dados coletados, para realizar análises as quais subsidiam o desenvolvimento de uma metodologia empírica para a análise de logs, baseada no modelo teórico de Jansen (2008). Assim, o processo descritivo e analítico resultou na proposta metodológica para atualização de vocabulário controlado por meio da análise de logs de busca, implementada na ferramenta computacional desenvolvida nesta Tese: a RILogUser (Institutional Repository for User Log), disponível em: https://github.com/ikatahira/Doutorado, uma ferramenta capaz de, a partir de um grande volume de dados, propiciar a seleção de dados relevantes e a comparação de vocabulários empregados por diferentes agentes de maneira produtiva. Entre as funcionalidades e características dessa ferramenta, destacam-se: (a) apresentação de uma visão sistemática do processo de análise de logs de buscas dos usuários; (b) possibilidade de integração com outras listagens de palavras, possibilitando a aplicação em RI diferentes; (c) apresentação de forma detalhada das etapas com exemplificações e seus respectivos produtos; (d) possibilidade de criação de vários vocabulários (baseado nos logs de buscas, palavras-chave dos autores e termos do Tesauro Unesp). A análise da lista de palavras oriundas dos logs de busca dos usuários, comparada à lista de palavras-chave atribuídas pelos autores aos documentos indexados no RI Unesp, viabilizou a obtenção de uma lista de expressões de busca contendo palavras simples, palavras compostas e frases, as quais compõem a lista de 5.826 palavras exclusivas às pesquisas dos usuários e 760 palavras comuns aos logs de pesquisas dos usuários e palavras-chave dos autores, ambas as listagens candidatas à atualização do vocabulário controlado Tesauro Unesp. Dessa forma, a análise de logs se apresentou como fonte confiável de informações, as quais, gerenciadas por estratégias computacionais, têm amplo potencial para otimizar instrumentos de representação, a fim de beneficiar os processos de busca e, consequentemente, de recuperação de informações. Os resultados experimentais, obtidos a partir da metodologia desenvolvida, se mostrou eficaz por viabilizar uma grande depuração de expressões de busca de usuários e palavras-chave dos autores, que produziu um corpus terminológico consistente proveniente diretamente da linguagem utilizada no RI, como fonte informacional para atualização de vocabulário.Institutional Repositories (IR) play a fundamental role in the dissemination of knowledge, especially academic publications. Executed on several software platforms, with a great diversity of installation, configuration and support systems, the IR remodeled the ways of storing, organizing and recovering materials, bringing greater agility to all these processes. However, providing online resources for direct user retrieval is challenging, as it is necessary to combine the technical process carried out internally in libraries with the needs of external users. From this perspective, the lack of articulation between the vocabularies used during indexing and the vocabularies used by users tends to cause noise and failures in the search and retrieval processes. In view of this, this research aimed to carry out a theoretical and methodological study on the analysis of logs, their functions and their use to update controlled vocabularies for institutional repositories. The research is characterized as qualitative and quantitative and its development was carried out in two stages: exploratory research and descriptive research. The exploratory research used a bibliographic survey and document analysis and the descriptive research focused on the work with the collected data, to carry out quantitative and qualitative analyzes which subsidize the development of an empirical methodology for the analysis of logs. This descriptive and analytical process resulted in the methodological proposal for updating controlled vocabulary through the analysis of search logs, implemented in the computational tool developed in this Thesis: the RILogUser (Institutional Repository for User Log), based on the theoretical model of Jansen (2008). The descriptive and analytical process resulted in the methodological proposal for updating controlled vocabulary through the analysis of search logs, implemented in the computational tool developed in this Thesis: the RILogUser (Institutional Repository for User Log), available at: https://github.com/ikatahira/Doutorado, a tool capable of, from a large volume of data, providing the selection of relevant data and the comparison of vocabularies employed by different agents in a productive way. Among the features and characteristics of this tool, the following stand out: (a) presentation of a systematic view of the process of analyzing user search logs; (b) possibility of integration with other word lists, enabling application in different IRs; (c) detailed presentation of the steps with examples and their respective products; (d) possibility of creating several vocabularies (based on search logs, authors' keywords and terms from the Tesauro Unesp). The analysis of the list of words from the users' search logs, compared to the list of keywords attributed by the authors to the documents indexed in RI Unesp, made it possible to obtain a list of search expressions containing simple words, compound words and phrases, which make up the list of 5,826 words exclusive to user searches and 760 words common to user search logs and authors' keywords, both candidate lists for updating the controlled vocabulary Tesauro Unesp. The analysis of logs was presented as a reliable source of information, which, managed by computational strategies, have ample potential to optimize representation instruments, in order to benefit the search processes and, consequently, information retrieval. The experimental results, obtained from the methodology developed, proved to be effective as it enabled a great debugging of user search expressions and authors' keywords, which produced a consistent terminological corpus coming directly from the language used in the IR, as an informational source for vocabulary update.Los Repositorios Institucionales (RI) juegan un papel fundamental en la difusión del conocimiento, especialmente de las publicaciones académicas. Ejecutado en varias plataformas de software, con una gran diversidad de sistemas de instalación, configuración y soporte, el IR remodeló las formas de almacenamiento, organización y recuperación de materiales, aportando mayor agilidad a todos estos procesos. Sin embargo, proporcionar recursos en línea para la recuperación directa del usuario es un desafío, ya que es necesario combinar el proceso técnico que se lleva a cabo internamente en las bibliotecas con las necesidades de los usuarios externos. Desde esta perspectiva, la falta de articulación entre los vocabularios utilizados durante la indexación y los vocabularios utilizados por los usuarios tiende a generar ruido y fallas en los procesos de búsqueda y recuperación. Ante ello, esta investigación tuvo como objetivo realizar un estudio teórico y metodológico sobre el análisis de bitácoras, sus funciones y su uso para la actualización de vocabularios controlados para repositorios institucionales. La investigación se caracteriza por ser cualitativa y cuantitativa y su desarrollo se llevó a cabo en dos etapas: investigación exploratoria e investigación descriptiva. La investigación exploratoria utilizó un levantamiento bibliográfico y análisis de documentos y la investigación descriptiva se centró en el trabajo con los datos recolectados, para realizar análisis cuantitativos y cualitativos que subsidian el desarrollo de una metodología empírica para el análisis de bitácoras. Este proceso descriptivo y analítico dio como resultado la propuesta metodológica de actualización de vocabulario controlado a través del análisis de registros de búsqueda, implementada en la herramienta computacional desarrollada en esta Tesis: el RILogUser (Repositorio Institucional de Registro de Usuario), basada en el modelo teórico de Jansen (2008). El proceso descriptivo y analítico dio como resultado la propuesta metodológica de actualización de vocabulario controlado a través del análisis de registros de búsqueda, implementada en la herramienta computacional desarrollada en esta Tesis: el RILogUser (Repositorio Institucional de Registro de Usuarios), disponible en: https://github.com/ikatahira/Doutorado, una herramienta capaz de, a partir de un gran volumen de datos, proporcionar la selección de datos relevantes y la comparación de vocabularios empleados por diferentes agentes de manera productiva. Entre las funcionalidades y características de esta herramienta se destacan: (a) presentación de una visión sistemática del proceso de análisis de los registros de búsqueda de los usuarios; (b) posibilidad de integración con otras listas de palabras, posibilitando su aplicación en diferentes RI; (c) presentación detallada de los pasos con ejemplos y sus respectivos productos; (d) posibilidad de crear varios vocabularios (basados en registros de búsqueda, palabras clave de los autores y términos del Tesauro Unesp). El análisis de la lista de palabras de los registros de búsqueda de los usuarios, comparada con la lista de palabras clave atribuidas por los autores a los documentos indexados en RI Unesp, permitió obtener una lista de expresiones de búsqueda que contienen palabras simples, palabras compuestas y frases. , que componen la lista de 5.826 palabras exclusivas de búsqueda de usuarios y 760 palabras comunes a los registros de búsqueda de usuarios y palabras clave de los autores, ambas listas candidatas para la actualización del vocabulario controlado Tesauro Unesp. El análisis de bitácoras se presentó como una fuente confiable de información, las cuales, manejadas por estrategias computacionales, tienen amplio potencial para optimizar instrumentos de representación, en beneficio de los procesos de búsqueda y, consecuentemente, de recuperación de información. Los resultados experimentales, obtenidos de la metodología desarrollada, demostraron ser efectivos ya que permitieron una gran depuración de las expresiones de búsqueda de los usuarios y las palabras clave de los autores, lo que produjo un corpus terminológico consistente proveniente directamente del lenguaje utilizado en el RI, como fuente de información para actualización de vocabulario.Não recebi financiamentoUniversidade Estadual Paulista (Unesp)Fujita, Mariângela Spotti Lopes [UNESP]Leiva, Isidoro Gil [UNESP]Universidade Estadual Paulista (Unesp)Katahira, Isaque [UNESP]2022-08-31T18:31:56Z2022-08-31T18:31:56Z2022-08-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfKATAHIRA, Isaque. Análise de logs de busca como fonte informacional para atualização de vocabulário controlado em repositórios institucionais. Universidade Estadual Paulista (Unesp), 2022.http://hdl.handle.net/11449/23638933004110043P4porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-08-12T18:32:04Zoai:repositorio.unesp.br:11449/236389Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-12T18:32:04Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false |
dc.title.none.fl_str_mv |
Análise de logs de busca como fonte informacional para atualização de vocabulário controlado em repositórios institucionais Analysis of search logs as a source of information for controlled vocabulary update in repository institutional Análisis de registros de búsqueda como fuente de información para actualización de vocabulario controlado en repositorio institucional |
title |
Análise de logs de busca como fonte informacional para atualização de vocabulário controlado em repositórios institucionais |
spellingShingle |
Análise de logs de busca como fonte informacional para atualização de vocabulário controlado em repositórios institucionais Katahira, Isaque [UNESP] Análise de logs Repositórios institucionais Análise de log de transações Vocabulário controlado Logs de buscas Log analysis Institutional repositories Transaction log analysis Controlled vocabulary Search logs Análisis de registro Repositorios institucionales Análisis de registro de transacciones Registros de búsqueda |
title_short |
Análise de logs de busca como fonte informacional para atualização de vocabulário controlado em repositórios institucionais |
title_full |
Análise de logs de busca como fonte informacional para atualização de vocabulário controlado em repositórios institucionais |
title_fullStr |
Análise de logs de busca como fonte informacional para atualização de vocabulário controlado em repositórios institucionais |
title_full_unstemmed |
Análise de logs de busca como fonte informacional para atualização de vocabulário controlado em repositórios institucionais |
title_sort |
Análise de logs de busca como fonte informacional para atualização de vocabulário controlado em repositórios institucionais |
author |
Katahira, Isaque [UNESP] |
author_facet |
Katahira, Isaque [UNESP] |
author_role |
author |
dc.contributor.none.fl_str_mv |
Fujita, Mariângela Spotti Lopes [UNESP] Leiva, Isidoro Gil [UNESP] Universidade Estadual Paulista (Unesp) |
dc.contributor.author.fl_str_mv |
Katahira, Isaque [UNESP] |
dc.subject.por.fl_str_mv |
Análise de logs Repositórios institucionais Análise de log de transações Vocabulário controlado Logs de buscas Log analysis Institutional repositories Transaction log analysis Controlled vocabulary Search logs Análisis de registro Repositorios institucionales Análisis de registro de transacciones Registros de búsqueda |
topic |
Análise de logs Repositórios institucionais Análise de log de transações Vocabulário controlado Logs de buscas Log analysis Institutional repositories Transaction log analysis Controlled vocabulary Search logs Análisis de registro Repositorios institucionales Análisis de registro de transacciones Registros de búsqueda |
description |
Os Repositórios Institucionais (RI) têm papel fundamental na divulgação do conhecimento, especialmente das publicações acadêmicas. Executados em diversas plataformas de software, com grande diversidade de sistemas de instalação, configuração e suporte, os RI remodelaram as formas de armazenamento, organização e recuperação de materiais, trazendo maior agilidade para todos esses processos. No entanto, disponibilizar recursos on-line para recuperação direta dos usuários é desafiador, na medida em que se faz necessário combinar o processo técnico realizado internamente nas bibliotecas com as necessidades dos usuários externos. Nessa perspectiva, a falta de articulação entre os vocabulários utilizados durante a indexação e os vocabulários utilizados pelos usuários tende a provocar ruídos e fracassos nos processos de busca e recuperação. Em vista disso, esta pesquisa teve como objetivo realizar estudo teórico e metodológico sobre a análise de logs, suas funções e sua utilização para atualização de vocabulários controlados para repositórios institucionais. Para tanto, realizou-se pesquisa qualitativa e quantitativa e seu desenvolvimento se realizou em duas etapas: pesquisa exploratória e pesquisa descritiva. A pesquisa exploratória utilizou levantamento bibliográfico e análise documental e a pesquisa descritiva focalizou o trabalho com os dados coletados, para realizar análises as quais subsidiam o desenvolvimento de uma metodologia empírica para a análise de logs, baseada no modelo teórico de Jansen (2008). Assim, o processo descritivo e analítico resultou na proposta metodológica para atualização de vocabulário controlado por meio da análise de logs de busca, implementada na ferramenta computacional desenvolvida nesta Tese: a RILogUser (Institutional Repository for User Log), disponível em: https://github.com/ikatahira/Doutorado, uma ferramenta capaz de, a partir de um grande volume de dados, propiciar a seleção de dados relevantes e a comparação de vocabulários empregados por diferentes agentes de maneira produtiva. Entre as funcionalidades e características dessa ferramenta, destacam-se: (a) apresentação de uma visão sistemática do processo de análise de logs de buscas dos usuários; (b) possibilidade de integração com outras listagens de palavras, possibilitando a aplicação em RI diferentes; (c) apresentação de forma detalhada das etapas com exemplificações e seus respectivos produtos; (d) possibilidade de criação de vários vocabulários (baseado nos logs de buscas, palavras-chave dos autores e termos do Tesauro Unesp). A análise da lista de palavras oriundas dos logs de busca dos usuários, comparada à lista de palavras-chave atribuídas pelos autores aos documentos indexados no RI Unesp, viabilizou a obtenção de uma lista de expressões de busca contendo palavras simples, palavras compostas e frases, as quais compõem a lista de 5.826 palavras exclusivas às pesquisas dos usuários e 760 palavras comuns aos logs de pesquisas dos usuários e palavras-chave dos autores, ambas as listagens candidatas à atualização do vocabulário controlado Tesauro Unesp. Dessa forma, a análise de logs se apresentou como fonte confiável de informações, as quais, gerenciadas por estratégias computacionais, têm amplo potencial para otimizar instrumentos de representação, a fim de beneficiar os processos de busca e, consequentemente, de recuperação de informações. Os resultados experimentais, obtidos a partir da metodologia desenvolvida, se mostrou eficaz por viabilizar uma grande depuração de expressões de busca de usuários e palavras-chave dos autores, que produziu um corpus terminológico consistente proveniente diretamente da linguagem utilizada no RI, como fonte informacional para atualização de vocabulário. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-08-31T18:31:56Z 2022-08-31T18:31:56Z 2022-08-09 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
KATAHIRA, Isaque. Análise de logs de busca como fonte informacional para atualização de vocabulário controlado em repositórios institucionais. Universidade Estadual Paulista (Unesp), 2022. http://hdl.handle.net/11449/236389 33004110043P4 |
identifier_str_mv |
KATAHIRA, Isaque. Análise de logs de busca como fonte informacional para atualização de vocabulário controlado em repositórios institucionais. Universidade Estadual Paulista (Unesp), 2022. 33004110043P4 |
url |
http://hdl.handle.net/11449/236389 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP |
instname_str |
Universidade Estadual Paulista (UNESP) |
instacron_str |
UNESP |
institution |
UNESP |
reponame_str |
Repositório Institucional da UNESP |
collection |
Repositório Institucional da UNESP |
repository.name.fl_str_mv |
Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP) |
repository.mail.fl_str_mv |
|
_version_ |
1808128119374086144 |