Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage”

Detalhes bibliográficos
Autor(a) principal: Jesus, Ananda Fernanda de
Data de Publicação: 2023
Outros Autores: Triques, Maria Lígia, Segundo, José Eduardo Santarem, Albuquerque, Ana Cristina de
Tipo de documento: Artigo
Idioma: por
Título da fonte: Revista Ibero-americana de Ciência da Informação
Texto Completo: https://periodicos.unb.br/index.php/RICI/article/view/47537
Resumo: Aims to verify the potential of applying Natural Language Processing (NLP) and Machine Learning (ML) techniques in the thematic categorization of scientific articles on the theme “cultural heritage” from two situations in which categories are established a priori and later. Applied research is developed, with quantitative and qualitative results, where the first corpus consisting of scientific articles in Portuguese, on a thematic basis of Information Science, manually selected and categorized; and the second corpus, composed of scientific articles in English retrieved from the Web of Science, automatically categorized by search strategies and application of Booleans. Both were submitted to two categorization test procedures (supervised and unsupervised algorithm). The results show that in both, the participation of the researcher is essential in defining the representativeness of the chosen sample, and this has an impact on the precision and accuracy of the applied algorithms. The importance of detailing and rigor in the pre-processing of data and sample size is highlighted, however, it is emphasized that, in the case of this study, only a larger volume of data did not guarantee that the results were representative from the point of view of the domain studied, which warns that there are always multidisciplinary discussions and analyzes that allow verifying and readjusting the sample parameters.
id UNB-7_e95a8199aceffb98f978d55865ed567d
oai_identifier_str oai:ojs.pkp.sfu.ca:article/47537
network_acronym_str UNB-7
network_name_str Revista Ibero-americana de Ciência da Informação
repository_id_str
spelling Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage”Procesamiento del lenguaje natural y aprendizaje automático en la categorización de artículos científicos: un estudio en torno al “patrimonio cultural”Processamento de linguagem natural e machine learning na categorização de artigos científicos: um estudo em torno do “patrimônio cultural”Aprendizado de máquinaProcessamento de linguagem naturalAlgoritmo de rede neuralAlgoritmo de clusterização hierárquicaPatrimônio culturalAprendizaje automáticoProcesamiento natural del linguajeAlgoritmo de red neuronalAlgoritmo de agrupamiento jerárquicoPatrimonio culturalMachine learningNatural language processingNeural network algorithmHierarchical clustering algorithmCultural heritageAims to verify the potential of applying Natural Language Processing (NLP) and Machine Learning (ML) techniques in the thematic categorization of scientific articles on the theme “cultural heritage” from two situations in which categories are established a priori and later. Applied research is developed, with quantitative and qualitative results, where the first corpus consisting of scientific articles in Portuguese, on a thematic basis of Information Science, manually selected and categorized; and the second corpus, composed of scientific articles in English retrieved from the Web of Science, automatically categorized by search strategies and application of Booleans. Both were submitted to two categorization test procedures (supervised and unsupervised algorithm). The results show that in both, the participation of the researcher is essential in defining the representativeness of the chosen sample, and this has an impact on the precision and accuracy of the applied algorithms. The importance of detailing and rigor in the pre-processing of data and sample size is highlighted, however, it is emphasized that, in the case of this study, only a larger volume of data did not guarantee that the results were representative from the point of view of the domain studied, which warns that there are always multidisciplinary discussions and analyzes that allow verifying and readjusting the sample parameters.Objetiva verificar el potencial de aplicar técnicas de Procesamiento del Lenguaje Natural (PNL) y Aprendizaje Automático (ML) en la categorización temática de artículos científicos sobre el tema “patrimonio cultural” a partir de dos situaciones en las que se establecen categorías a priori y posteriormente. Se desarrolla una investigación aplicada, con resultados cuantitativos y cualitativos, donde el primer corpus consiste en artículos científicos en portugués, sobre una base temática de Ciencias de la Información, seleccionados y categorizados manualmente; y el segundo corpus, compuesto por artículos científicos en inglés recuperados de la Web of Science, categorizados automáticamente por estrategias de búsqueda y aplicación de booleanos. Ambos fueron sometidos a dos procedimientos de prueba de categorización (algoritmo supervisado y no supervisado). Los resultados muestran que en ambos enfoques la participación del investigador es fundamental para definir la representatividad de la muestra elegida, y que esta tiene un impacto directo en la precisión y exactitud de los algoritmos aplicados. Se destaca la importancia del detalle y rigor en el preprocesamiento de los datos y el tamaño de la muestra, sin embargo, se destaca que, en el caso de este estudio, solo un mayor volumen de datos no garantizaba que los resultados fueran representativos desde el punto de vista de vista del dominio estudiado, lo que advierte que siempre hay discusiones y análisis multidisciplinarios que permiten verificar y reajustar los parámetros de la muestra.Objetiva verificar o potencial de aplicação de técnicas de Processamento de Linguagem Natural (PLN) e de Machine Learning (ML) na categorização temática de artigos científicos sobre a temática “patrimônio cultural” a partir de duas situações em que categorias são estabelecidas a priori e a posteriori. Desenvolve-se uma pesquisa aplicada, com resultados quantitativos e qualitativos. O primeiro corpus é constituído de artigos científicos em português, em base temática da Ciência da Informação, selecionados e categorizados manualmente; e o segundo corpus, composto por artigos científicos em inglês recuperados na Web of Science, categorizados de forma automática por estratégias de busca e aplicação de booleanos. Ambos foram submetidos à dois procedimentos de teste de categorização (algoritmo supervisionado e não supervisionado). Os resultados demonstram que em ambas a participação do pesquisador é essencial na definição da representatividade da amostra escolhida, e que esta tem impacto direto na precisão e acurácia dos algoritmos aplicados. Destaca-se a importância do detalhamento e rigor no pré-processamento dos dados e do tamanho da amostra, contudo, ressalta-se que, no caso deste estudo, somente um volume maior de dados não garantiu que os resultados fossem representativos do ponto de vista do domínio estudado, o que alerta para que haja sempre discussões e análises multidisciplinares que permitam verificar e readequar os parâmetros da amostra.Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação2023-03-27info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://periodicos.unb.br/index.php/RICI/article/view/4753710.26512/rici.v16.n1.2023.47537Revista Ibero-Americana de Ciência da Informação; Vol. 16 No. 1 (2023): Revista Ibero-americana de Ciência da Informação; 167-184Revista Ibero-Americana de Ciência da Informação; Vol. 16 Núm. 1 (2023): Revista Ibero-americana de Ciência da Informação; 167-184Revista Ibero-Americana de Ciência da Informação; v. 16 n. 1 (2023): Revista Ibero-americana de Ciência da Informação; 167-1841983-521310.26512/rici.v16.n1.2023reponame:Revista Ibero-americana de Ciência da Informaçãoinstname:Universidade de Brasília (UnB)instacron:UNBporhttps://periodicos.unb.br/index.php/RICI/article/view/47537/36583Copyright (c) 2023 Ananda Fernanda de Jesus, Maria Lígia Triques, José Eduardo Santarem Segundo, Ana Cristina de Albuquerquehttps://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessJesus, Ananda Fernanda deTriques, Maria LígiaSegundo, José Eduardo SantaremAlbuquerque, Ana Cristina de2023-03-27T18:56:58Zoai:ojs.pkp.sfu.ca:article/47537Revistahttps://periodicos.unb.br/index.php/RICI/indexPUBhttps://periodicos.unb.br/index.php/RICI/oai||rici@unb.br1983-52131983-5213opendoar:2023-03-27T18:56:58Revista Ibero-americana de Ciência da Informação - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage”
Procesamiento del lenguaje natural y aprendizaje automático en la categorización de artículos científicos: un estudio en torno al “patrimonio cultural”
Processamento de linguagem natural e machine learning na categorização de artigos científicos: um estudo em torno do “patrimônio cultural”
title Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage”
spellingShingle Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage”
Jesus, Ananda Fernanda de
Aprendizado de máquina
Processamento de linguagem natural
Algoritmo de rede neural
Algoritmo de clusterização hierárquica
Patrimônio cultural
Aprendizaje automático
Procesamiento natural del linguaje
Algoritmo de red neuronal
Algoritmo de agrupamiento jerárquico
Patrimonio cultural
Machine learning
Natural language processing
Neural network algorithm
Hierarchical clustering algorithm
Cultural heritage
title_short Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage”
title_full Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage”
title_fullStr Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage”
title_full_unstemmed Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage”
title_sort Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage”
author Jesus, Ananda Fernanda de
author_facet Jesus, Ananda Fernanda de
Triques, Maria Lígia
Segundo, José Eduardo Santarem
Albuquerque, Ana Cristina de
author_role author
author2 Triques, Maria Lígia
Segundo, José Eduardo Santarem
Albuquerque, Ana Cristina de
author2_role author
author
author
dc.contributor.author.fl_str_mv Jesus, Ananda Fernanda de
Triques, Maria Lígia
Segundo, José Eduardo Santarem
Albuquerque, Ana Cristina de
dc.subject.por.fl_str_mv Aprendizado de máquina
Processamento de linguagem natural
Algoritmo de rede neural
Algoritmo de clusterização hierárquica
Patrimônio cultural
Aprendizaje automático
Procesamiento natural del linguaje
Algoritmo de red neuronal
Algoritmo de agrupamiento jerárquico
Patrimonio cultural
Machine learning
Natural language processing
Neural network algorithm
Hierarchical clustering algorithm
Cultural heritage
topic Aprendizado de máquina
Processamento de linguagem natural
Algoritmo de rede neural
Algoritmo de clusterização hierárquica
Patrimônio cultural
Aprendizaje automático
Procesamiento natural del linguaje
Algoritmo de red neuronal
Algoritmo de agrupamiento jerárquico
Patrimonio cultural
Machine learning
Natural language processing
Neural network algorithm
Hierarchical clustering algorithm
Cultural heritage
description Aims to verify the potential of applying Natural Language Processing (NLP) and Machine Learning (ML) techniques in the thematic categorization of scientific articles on the theme “cultural heritage” from two situations in which categories are established a priori and later. Applied research is developed, with quantitative and qualitative results, where the first corpus consisting of scientific articles in Portuguese, on a thematic basis of Information Science, manually selected and categorized; and the second corpus, composed of scientific articles in English retrieved from the Web of Science, automatically categorized by search strategies and application of Booleans. Both were submitted to two categorization test procedures (supervised and unsupervised algorithm). The results show that in both, the participation of the researcher is essential in defining the representativeness of the chosen sample, and this has an impact on the precision and accuracy of the applied algorithms. The importance of detailing and rigor in the pre-processing of data and sample size is highlighted, however, it is emphasized that, in the case of this study, only a larger volume of data did not guarantee that the results were representative from the point of view of the domain studied, which warns that there are always multidisciplinary discussions and analyzes that allow verifying and readjusting the sample parameters.
publishDate 2023
dc.date.none.fl_str_mv 2023-03-27
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://periodicos.unb.br/index.php/RICI/article/view/47537
10.26512/rici.v16.n1.2023.47537
url https://periodicos.unb.br/index.php/RICI/article/view/47537
identifier_str_mv 10.26512/rici.v16.n1.2023.47537
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://periodicos.unb.br/index.php/RICI/article/view/47537/36583
dc.rights.driver.fl_str_mv https://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação
publisher.none.fl_str_mv Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação
dc.source.none.fl_str_mv Revista Ibero-Americana de Ciência da Informação; Vol. 16 No. 1 (2023): Revista Ibero-americana de Ciência da Informação; 167-184
Revista Ibero-Americana de Ciência da Informação; Vol. 16 Núm. 1 (2023): Revista Ibero-americana de Ciência da Informação; 167-184
Revista Ibero-Americana de Ciência da Informação; v. 16 n. 1 (2023): Revista Ibero-americana de Ciência da Informação; 167-184
1983-5213
10.26512/rici.v16.n1.2023
reponame:Revista Ibero-americana de Ciência da Informação
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Revista Ibero-americana de Ciência da Informação
collection Revista Ibero-americana de Ciência da Informação
repository.name.fl_str_mv Revista Ibero-americana de Ciência da Informação - Universidade de Brasília (UnB)
repository.mail.fl_str_mv ||rici@unb.br
_version_ 1800211000419418112