Indexação automática de documentos digitais : uma proposta a partir de marcações de leitores

Detalhes bibliográficos
Autor(a) principal: Rocha, Nathaly Cristine Leite
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UnB
Texto Completo: http://repositorio2.unb.br/jspui/handle/10482/48940
Resumo: Dissertação (mestrado) — Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2023.
id UNB_c1277be2335dddd8c72fdcbd9aca3790
oai_identifier_str oai:repositorio.unb.br:10482/48940
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling Indexação automática de documentos digitais : uma proposta a partir de marcações de leitoresIndexaçãoRecuperação da informaçãoOrganização da informaçãoDissertação (mestrado) — Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2023.Lidar com a representação, organização e recuperação da informação em contexto digital representa um desafio ao mesmo tempo que possibilita a exploração de diferentes modos de atender as necessidades informacionais tão intrínsecas a todos os indivíduos em suas atividades cotidianas. A interação de leitores com textos transformou-se significativamente na era digital. A marcação de textos em meio digital tornou-se uma prática comum, permitindo aos leitores destacar trechos relevantes, fazer anotações e criar marcadores virtuais. Ferramentas como destaque de texto, sublinhado e anotações digitais proporcionam uma experiência de leitura interativa e personalizada. Além disso, a marcação em meio digital facilita a organização e revisão posterior, contribuindo para uma compreensão mais aprofundada dos conteúdos em um ambiente dinâmico e tecnologicamente avançado, também se caracterizando como potencial fonte de registros para organização e recuperação da informação, em específico no escopo deste trabalho, para indexação. Isto posto, o objetivo deste estudo é investigar de que maneira as anotações e outros registros feitos por usuários/leitores em documentos digitais podem ser usados para indexação automática de documentos digitais. Com a proposta de criar um fluxo de trabalho para indexação automática a partir de trechos grifados, o estudo se vale de métodos mistos utilizando aspectos tanto qualitativos como quantitativos para atender os objetivos geral e específicos. A coleta de dados se deu por questionário direcionado a pesquisadores da Ciência da Informação, criando um corpus de textos para analisar. Aplicou-se códigos computacionais escritos com a linguagem Python e o apoio das bibliotecas PyMuPDF, SciKit Learn e Natural Language Toolkit (NLTK) para extração de trechos, pré-processamento de dados e cálculos de frequência para determinação de termos indexadores. Como resultados, apresenta-se uma análise das estratégias de marcações dos respondentes da pesquisa aproximando-as de conceitos da Organização da Informação, mostrando convergências entre ambas. O processo de indexação apresentado como proposta foi considerado satisfatório no objetivo de gerar um conjunto de termos indexadores para o documento do corpus. Sendo assim, foi disponibilizado tanto o fluxo de trabalho como os códigos utilizados no processo.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).Dealing with the representation, organization, and retrieval of information in a digital context poses a challenge while enabling the exploration of different ways to meet the information needs so intrinsic to individuals in their daily activities. The interaction of readers with texts has undergone significant transformations in the digital age. Text markup in digital environments has become a common practice, allowing readers to highlight relevant passages, make annotations, and create virtual bookmarks. Tools such as text highlighting, underlining, and digital annotations provide an interactive and personalized reading experience. Furthermore, digital text markup facilitates organization and subsequent review, contributing to a deeper understanding of content in a dynamic and technologically advanced environment, also serving as a potential source of records for information organization and retrieval, specifically within the scope of this work, for indexing. With that said, the objective of this study is to investigate how annotations and other user/reader records in digital documents can be used for the automatic indexing of digital documents. Proposing to create a workflow for automatic indexing from highlighted passages, the study employs mixed methods using both qualitative and quantitative aspects to address the general and specific objectives. Data collection was done through a form directed at Information Science researchers, creating a corpus of texts for analysis. Computational codes were applied using the Python language and the support of the PyMuPDF, SciKit Learn, and Natural Language Toolkit (NLTK) libraries for extracting passages, data preprocessing, and frequency calculations to determine indexing terms. As results, an analysis of the marking strategies of the research respondents is presented, aligning them with concepts of Information Organization and demonstrating convergences between the two. The proposed indexing process was considered satisfactory in generating a set of indexing terms for the corpus document. Therefore, both the workflow and the codes used in the process have been made available.Faculdade de Ciência da Informação (FCI)Programa de Pós-Graduação em Ciência da InformaçãoMartins, Dalton LopesRocha, Nathaly Cristine Leite2024-07-17T12:16:20Z2024-07-17T12:16:20Z2024-07-172023-12-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfROCHA, Nathaly Cristine Leite. Indexação automática de documentos digitais: uma proposta a partir de marcações de leitores. 2023. 101 f., il. Dissertação (Mestrado em Ciência da Informação) — Universidade de Brasília, Brasília, 2023.http://repositorio2.unb.br/jspui/handle/10482/48940porA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2024-07-17T12:16:20Zoai:repositorio.unb.br:10482/48940Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2024-07-17T12:16:20Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv Indexação automática de documentos digitais : uma proposta a partir de marcações de leitores
title Indexação automática de documentos digitais : uma proposta a partir de marcações de leitores
spellingShingle Indexação automática de documentos digitais : uma proposta a partir de marcações de leitores
Rocha, Nathaly Cristine Leite
Indexação
Recuperação da informação
Organização da informação
title_short Indexação automática de documentos digitais : uma proposta a partir de marcações de leitores
title_full Indexação automática de documentos digitais : uma proposta a partir de marcações de leitores
title_fullStr Indexação automática de documentos digitais : uma proposta a partir de marcações de leitores
title_full_unstemmed Indexação automática de documentos digitais : uma proposta a partir de marcações de leitores
title_sort Indexação automática de documentos digitais : uma proposta a partir de marcações de leitores
author Rocha, Nathaly Cristine Leite
author_facet Rocha, Nathaly Cristine Leite
author_role author
dc.contributor.none.fl_str_mv Martins, Dalton Lopes
dc.contributor.author.fl_str_mv Rocha, Nathaly Cristine Leite
dc.subject.por.fl_str_mv Indexação
Recuperação da informação
Organização da informação
topic Indexação
Recuperação da informação
Organização da informação
description Dissertação (mestrado) — Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2023.
publishDate 2023
dc.date.none.fl_str_mv 2023-12-21
2024-07-17T12:16:20Z
2024-07-17T12:16:20Z
2024-07-17
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv ROCHA, Nathaly Cristine Leite. Indexação automática de documentos digitais: uma proposta a partir de marcações de leitores. 2023. 101 f., il. Dissertação (Mestrado em Ciência da Informação) — Universidade de Brasília, Brasília, 2023.
http://repositorio2.unb.br/jspui/handle/10482/48940
identifier_str_mv ROCHA, Nathaly Cristine Leite. Indexação automática de documentos digitais: uma proposta a partir de marcações de leitores. 2023. 101 f., il. Dissertação (Mestrado em Ciência da Informação) — Universidade de Brasília, Brasília, 2023.
url http://repositorio2.unb.br/jspui/handle/10482/48940
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv repositorio@unb.br
_version_ 1814508232733884416