Mapping of scientific knowledge: modeling of the graduate program in Information Science of the Federal University of Minas Gerais

Detalhes bibliográficos
Autor(a) principal: de Souza, Marcos
Data de Publicação: 2021
Outros Autores: Souza, Renato Rocha
Tipo de documento: Artigo
Idioma: por
Título da fonte: Em Questão (Online)
Texto Completo: https://seer.ufrgs.br/index.php/EmQuestao/article/view/104211
Resumo: The use of computational tools has been increasingly required to organize, retrieve and understand the growing volume of data. Scientific communication has contributed both formally and informally to this phenomenon. However, managing and organizing a large collection of documents may become humanly impossible, and refutable when done manually. Topic modeling through machine learning algorithms has made it possible to organize and summarize data corpora. This study aims to identify the topics of the theses and dissertations by the graduate program in Information Science of the Federal University of Minas Gerais, southeastern Brazil (Programa de Pós-Graduação em Ciência da Informação da Universidade Federal de Minas Gerais). The main goal is to identify the most relevant topics of the corpus made up of documents such as theses and dissertations of that graduate program, such as the terms that constitute each topic as well as their respective weights. In the topic modeling we set a Latent Dirichlet Allocation model to identify 6, 8, 10, 12, 14, 16, 18 and 20 topics along with the data corpus. This allowed us to scientifically map the documents that we analyzed. The results obtained when the model was set to 14 topics were more cohesive and presented less noise and so allowed us to assume the names of the topics more assertively and to correlate the fields of research of the graduate program of the Federal University of Minas Gerais.
id UFRGS-8_9c925a71b2884e1ce18a25364e36bd0e
oai_identifier_str oai:seer.ufrgs.br:article/104211
network_acronym_str UFRGS-8
network_name_str Em Questão (Online)
repository_id_str
spelling Mapping of scientific knowledge: modeling of the graduate program in Information Science of the Federal University of Minas GeraisMapeamento de conhecimento científico: modelagem de tópicos das teses e dissertações do Programa de Pós-Graduação em Ciência da Informação da UFMGModelagem de tópicosAprendizagem de MáquinaAlocação de Dirichlet LatenteMapeamento CientíficoCiência da Informação.Topic modelingLatent Dirichlet AllocationMachine LearningScientific MappingInformation Science.The use of computational tools has been increasingly required to organize, retrieve and understand the growing volume of data. Scientific communication has contributed both formally and informally to this phenomenon. However, managing and organizing a large collection of documents may become humanly impossible, and refutable when done manually. Topic modeling through machine learning algorithms has made it possible to organize and summarize data corpora. This study aims to identify the topics of the theses and dissertations by the graduate program in Information Science of the Federal University of Minas Gerais, southeastern Brazil (Programa de Pós-Graduação em Ciência da Informação da Universidade Federal de Minas Gerais). The main goal is to identify the most relevant topics of the corpus made up of documents such as theses and dissertations of that graduate program, such as the terms that constitute each topic as well as their respective weights. In the topic modeling we set a Latent Dirichlet Allocation model to identify 6, 8, 10, 12, 14, 16, 18 and 20 topics along with the data corpus. This allowed us to scientifically map the documents that we analyzed. The results obtained when the model was set to 14 topics were more cohesive and presented less noise and so allowed us to assume the names of the topics more assertively and to correlate the fields of research of the graduate program of the Federal University of Minas Gerais.O uso das ferramentas computacionais tem sido cada vez mais exigido para organizar, recuperar e compreender o crescente volume de dados. A comunicação científica tem contribuído, por meio de trabalhos formais e informais, para esse fenômeno; entretanto, a organização de uma grande coleção de documentos pode se tornar um processo lento e questionável quando realizado sem recursos tecnológicos. A modelagem de tópicos, por meio de algoritmos de aprendizagem de máquina, tem possibilitado organizar e resumir corpora de dados. A problemática da pesquisa é descobrir como se têm apresentado os temas das teses e dissertações produzidas pelo Programa de PósGraduação em Ciência da Informação da Universidade Federal de Minas Gerais. Busca-se identificar os tópicos de maior relevância do corpus de dados, constituído por documentos do tipo teses e dissertações desse programa de pósgraduação, assim como os termos de cada tópico e os pesos atribuídos a cada um desses termos. Na modelagem de tópicos, utilizou-se o modelo de alocação de Dirichlet latente, configurado para identificar 6, 8, 10, 12, 14, 16, 18 e 20 tópicos junto ao corpus de dados, o que permitiu realizar o mapeamento científico dos documentos analisados. Os resultados com 14 tópicos foram mais coesos e apresentaram menos ruídos e, por isso, permitiram inferir os nomes dos tópicos de maneira mais segura e estabelecer correlações com as linhas de pesquisa do Programa de Pós-Graduação em Ciência da Informação da Universidade Federal de Minas Gerais.Universidade Federal do Rio Grande do Sul, Faculdade de Biblioteconomia e Comunicação, Programa de Pós-Graduação em Ciência da Informação (Porto Alegre/RS)2021-06-30info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionAvaliado por Paresapplication/pdfhttps://seer.ufrgs.br/index.php/EmQuestao/article/view/10421110.19132/1808-5245273.228-250Em Questão; v.27, n.3, jul./set. 2021; 228-250Em Questão; v.27, n.3, jul./set. 2021; 228-250Em Questão; v.27, n.3, jul./set. 2021; 228-2501808-52451807-8893reponame:Em Questão (Online)instname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSporhttps://seer.ufrgs.br/index.php/EmQuestao/article/view/104211/61279Copyright (c) 2021 Marcos Souza, Renato Rocha Souzahttps://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessde Souza, MarcosSouza, Renato Rocha2023-11-30T17:00:31Zoai:seer.ufrgs.br:article/104211Revistahttps://seer.ufrgs.br/emquestao/PUBhttps://seer.ufrgs.br/EmQuestao/oaiemquestao@ufrgs.br||emquestao@ufrgs.br1808-52451807-8893opendoar:2023-11-30T17:00:31Em Questão (Online) - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.none.fl_str_mv Mapping of scientific knowledge: modeling of the graduate program in Information Science of the Federal University of Minas Gerais
Mapeamento de conhecimento científico: modelagem de tópicos das teses e dissertações do Programa de Pós-Graduação em Ciência da Informação da UFMG
title Mapping of scientific knowledge: modeling of the graduate program in Information Science of the Federal University of Minas Gerais
spellingShingle Mapping of scientific knowledge: modeling of the graduate program in Information Science of the Federal University of Minas Gerais
de Souza, Marcos
Modelagem de tópicos
Aprendizagem de Máquina
Alocação de Dirichlet Latente
Mapeamento Científico
Ciência da Informação.
Topic modeling
Latent Dirichlet Allocation
Machine Learning
Scientific Mapping
Information Science.
title_short Mapping of scientific knowledge: modeling of the graduate program in Information Science of the Federal University of Minas Gerais
title_full Mapping of scientific knowledge: modeling of the graduate program in Information Science of the Federal University of Minas Gerais
title_fullStr Mapping of scientific knowledge: modeling of the graduate program in Information Science of the Federal University of Minas Gerais
title_full_unstemmed Mapping of scientific knowledge: modeling of the graduate program in Information Science of the Federal University of Minas Gerais
title_sort Mapping of scientific knowledge: modeling of the graduate program in Information Science of the Federal University of Minas Gerais
author de Souza, Marcos
author_facet de Souza, Marcos
Souza, Renato Rocha
author_role author
author2 Souza, Renato Rocha
author2_role author
dc.contributor.author.fl_str_mv de Souza, Marcos
Souza, Renato Rocha
dc.subject.por.fl_str_mv Modelagem de tópicos
Aprendizagem de Máquina
Alocação de Dirichlet Latente
Mapeamento Científico
Ciência da Informação.
Topic modeling
Latent Dirichlet Allocation
Machine Learning
Scientific Mapping
Information Science.
topic Modelagem de tópicos
Aprendizagem de Máquina
Alocação de Dirichlet Latente
Mapeamento Científico
Ciência da Informação.
Topic modeling
Latent Dirichlet Allocation
Machine Learning
Scientific Mapping
Information Science.
description The use of computational tools has been increasingly required to organize, retrieve and understand the growing volume of data. Scientific communication has contributed both formally and informally to this phenomenon. However, managing and organizing a large collection of documents may become humanly impossible, and refutable when done manually. Topic modeling through machine learning algorithms has made it possible to organize and summarize data corpora. This study aims to identify the topics of the theses and dissertations by the graduate program in Information Science of the Federal University of Minas Gerais, southeastern Brazil (Programa de Pós-Graduação em Ciência da Informação da Universidade Federal de Minas Gerais). The main goal is to identify the most relevant topics of the corpus made up of documents such as theses and dissertations of that graduate program, such as the terms that constitute each topic as well as their respective weights. In the topic modeling we set a Latent Dirichlet Allocation model to identify 6, 8, 10, 12, 14, 16, 18 and 20 topics along with the data corpus. This allowed us to scientifically map the documents that we analyzed. The results obtained when the model was set to 14 topics were more cohesive and presented less noise and so allowed us to assume the names of the topics more assertively and to correlate the fields of research of the graduate program of the Federal University of Minas Gerais.
publishDate 2021
dc.date.none.fl_str_mv 2021-06-30
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
Avaliado por Pares
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://seer.ufrgs.br/index.php/EmQuestao/article/view/104211
10.19132/1808-5245273.228-250
url https://seer.ufrgs.br/index.php/EmQuestao/article/view/104211
identifier_str_mv 10.19132/1808-5245273.228-250
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://seer.ufrgs.br/index.php/EmQuestao/article/view/104211/61279
dc.rights.driver.fl_str_mv Copyright (c) 2021 Marcos Souza, Renato Rocha Souza
https://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Copyright (c) 2021 Marcos Souza, Renato Rocha Souza
https://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Rio Grande do Sul, Faculdade de Biblioteconomia e Comunicação, Programa de Pós-Graduação em Ciência da Informação (Porto Alegre/RS)
publisher.none.fl_str_mv Universidade Federal do Rio Grande do Sul, Faculdade de Biblioteconomia e Comunicação, Programa de Pós-Graduação em Ciência da Informação (Porto Alegre/RS)
dc.source.none.fl_str_mv Em Questão; v.27, n.3, jul./set. 2021; 228-250
Em Questão; v.27, n.3, jul./set. 2021; 228-250
Em Questão; v.27, n.3, jul./set. 2021; 228-250
1808-5245
1807-8893
reponame:Em Questão (Online)
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Em Questão (Online)
collection Em Questão (Online)
repository.name.fl_str_mv Em Questão (Online) - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv emquestao@ufrgs.br||emquestao@ufrgs.br
_version_ 1789438636074205184