Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage”
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Outros Autores: | , , |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Revista Ibero-americana de Ciência da Informação |
Texto Completo: | https://periodicos.unb.br/index.php/RICI/article/view/47537 |
Resumo: | Aims to verify the potential of applying Natural Language Processing (NLP) and Machine Learning (ML) techniques in the thematic categorization of scientific articles on the theme “cultural heritage” from two situations in which categories are established a priori and later. Applied research is developed, with quantitative and qualitative results, where the first corpus consisting of scientific articles in Portuguese, on a thematic basis of Information Science, manually selected and categorized; and the second corpus, composed of scientific articles in English retrieved from the Web of Science, automatically categorized by search strategies and application of Booleans. Both were submitted to two categorization test procedures (supervised and unsupervised algorithm). The results show that in both, the participation of the researcher is essential in defining the representativeness of the chosen sample, and this has an impact on the precision and accuracy of the applied algorithms. The importance of detailing and rigor in the pre-processing of data and sample size is highlighted, however, it is emphasized that, in the case of this study, only a larger volume of data did not guarantee that the results were representative from the point of view of the domain studied, which warns that there are always multidisciplinary discussions and analyzes that allow verifying and readjusting the sample parameters. |
id |
UNB-7_e95a8199aceffb98f978d55865ed567d |
---|---|
oai_identifier_str |
oai:ojs.pkp.sfu.ca:article/47537 |
network_acronym_str |
UNB-7 |
network_name_str |
Revista Ibero-americana de Ciência da Informação |
repository_id_str |
|
spelling |
Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage”Procesamiento del lenguaje natural y aprendizaje automático en la categorización de artículos científicos: un estudio en torno al “patrimonio cultural”Processamento de linguagem natural e machine learning na categorização de artigos científicos: um estudo em torno do “patrimônio cultural”Aprendizado de máquinaProcessamento de linguagem naturalAlgoritmo de rede neuralAlgoritmo de clusterização hierárquicaPatrimônio culturalAprendizaje automáticoProcesamiento natural del linguajeAlgoritmo de red neuronalAlgoritmo de agrupamiento jerárquicoPatrimonio culturalMachine learningNatural language processingNeural network algorithmHierarchical clustering algorithmCultural heritageAims to verify the potential of applying Natural Language Processing (NLP) and Machine Learning (ML) techniques in the thematic categorization of scientific articles on the theme “cultural heritage” from two situations in which categories are established a priori and later. Applied research is developed, with quantitative and qualitative results, where the first corpus consisting of scientific articles in Portuguese, on a thematic basis of Information Science, manually selected and categorized; and the second corpus, composed of scientific articles in English retrieved from the Web of Science, automatically categorized by search strategies and application of Booleans. Both were submitted to two categorization test procedures (supervised and unsupervised algorithm). The results show that in both, the participation of the researcher is essential in defining the representativeness of the chosen sample, and this has an impact on the precision and accuracy of the applied algorithms. The importance of detailing and rigor in the pre-processing of data and sample size is highlighted, however, it is emphasized that, in the case of this study, only a larger volume of data did not guarantee that the results were representative from the point of view of the domain studied, which warns that there are always multidisciplinary discussions and analyzes that allow verifying and readjusting the sample parameters.Objetiva verificar el potencial de aplicar técnicas de Procesamiento del Lenguaje Natural (PNL) y Aprendizaje Automático (ML) en la categorización temática de artículos científicos sobre el tema “patrimonio cultural” a partir de dos situaciones en las que se establecen categorías a priori y posteriormente. Se desarrolla una investigación aplicada, con resultados cuantitativos y cualitativos, donde el primer corpus consiste en artículos científicos en portugués, sobre una base temática de Ciencias de la Información, seleccionados y categorizados manualmente; y el segundo corpus, compuesto por artículos científicos en inglés recuperados de la Web of Science, categorizados automáticamente por estrategias de búsqueda y aplicación de booleanos. Ambos fueron sometidos a dos procedimientos de prueba de categorización (algoritmo supervisado y no supervisado). Los resultados muestran que en ambos enfoques la participación del investigador es fundamental para definir la representatividad de la muestra elegida, y que esta tiene un impacto directo en la precisión y exactitud de los algoritmos aplicados. Se destaca la importancia del detalle y rigor en el preprocesamiento de los datos y el tamaño de la muestra, sin embargo, se destaca que, en el caso de este estudio, solo un mayor volumen de datos no garantizaba que los resultados fueran representativos desde el punto de vista de vista del dominio estudiado, lo que advierte que siempre hay discusiones y análisis multidisciplinarios que permiten verificar y reajustar los parámetros de la muestra.Objetiva verificar o potencial de aplicação de técnicas de Processamento de Linguagem Natural (PLN) e de Machine Learning (ML) na categorização temática de artigos científicos sobre a temática “patrimônio cultural” a partir de duas situações em que categorias são estabelecidas a priori e a posteriori. Desenvolve-se uma pesquisa aplicada, com resultados quantitativos e qualitativos. O primeiro corpus é constituído de artigos científicos em português, em base temática da Ciência da Informação, selecionados e categorizados manualmente; e o segundo corpus, composto por artigos científicos em inglês recuperados na Web of Science, categorizados de forma automática por estratégias de busca e aplicação de booleanos. Ambos foram submetidos à dois procedimentos de teste de categorização (algoritmo supervisionado e não supervisionado). Os resultados demonstram que em ambas a participação do pesquisador é essencial na definição da representatividade da amostra escolhida, e que esta tem impacto direto na precisão e acurácia dos algoritmos aplicados. Destaca-se a importância do detalhamento e rigor no pré-processamento dos dados e do tamanho da amostra, contudo, ressalta-se que, no caso deste estudo, somente um volume maior de dados não garantiu que os resultados fossem representativos do ponto de vista do domínio estudado, o que alerta para que haja sempre discussões e análises multidisciplinares que permitam verificar e readequar os parâmetros da amostra.Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação2023-03-27info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://periodicos.unb.br/index.php/RICI/article/view/4753710.26512/rici.v16.n1.2023.47537Revista Ibero-Americana de Ciência da Informação; Vol. 16 No. 1 (2023): Revista Ibero-americana de Ciência da Informação; 167-184Revista Ibero-Americana de Ciência da Informação; Vol. 16 Núm. 1 (2023): Revista Ibero-americana de Ciência da Informação; 167-184Revista Ibero-Americana de Ciência da Informação; v. 16 n. 1 (2023): Revista Ibero-americana de Ciência da Informação; 167-1841983-521310.26512/rici.v16.n1.2023reponame:Revista Ibero-americana de Ciência da Informaçãoinstname:Universidade de Brasília (UnB)instacron:UNBporhttps://periodicos.unb.br/index.php/RICI/article/view/47537/36583Copyright (c) 2023 Ananda Fernanda de Jesus, Maria Lígia Triques, José Eduardo Santarem Segundo, Ana Cristina de Albuquerquehttps://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessJesus, Ananda Fernanda deTriques, Maria LígiaSegundo, José Eduardo SantaremAlbuquerque, Ana Cristina de2023-03-27T18:56:58Zoai:ojs.pkp.sfu.ca:article/47537Revistahttps://periodicos.unb.br/index.php/RICI/indexPUBhttps://periodicos.unb.br/index.php/RICI/oai||rici@unb.br1983-52131983-5213opendoar:2023-03-27T18:56:58Revista Ibero-americana de Ciência da Informação - Universidade de Brasília (UnB)false |
dc.title.none.fl_str_mv |
Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage” Procesamiento del lenguaje natural y aprendizaje automático en la categorización de artículos científicos: un estudio en torno al “patrimonio cultural” Processamento de linguagem natural e machine learning na categorização de artigos científicos: um estudo em torno do “patrimônio cultural” |
title |
Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage” |
spellingShingle |
Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage” Jesus, Ananda Fernanda de Aprendizado de máquina Processamento de linguagem natural Algoritmo de rede neural Algoritmo de clusterização hierárquica Patrimônio cultural Aprendizaje automático Procesamiento natural del linguaje Algoritmo de red neuronal Algoritmo de agrupamiento jerárquico Patrimonio cultural Machine learning Natural language processing Neural network algorithm Hierarchical clustering algorithm Cultural heritage |
title_short |
Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage” |
title_full |
Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage” |
title_fullStr |
Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage” |
title_full_unstemmed |
Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage” |
title_sort |
Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage” |
author |
Jesus, Ananda Fernanda de |
author_facet |
Jesus, Ananda Fernanda de Triques, Maria Lígia Segundo, José Eduardo Santarem Albuquerque, Ana Cristina de |
author_role |
author |
author2 |
Triques, Maria Lígia Segundo, José Eduardo Santarem Albuquerque, Ana Cristina de |
author2_role |
author author author |
dc.contributor.author.fl_str_mv |
Jesus, Ananda Fernanda de Triques, Maria Lígia Segundo, José Eduardo Santarem Albuquerque, Ana Cristina de |
dc.subject.por.fl_str_mv |
Aprendizado de máquina Processamento de linguagem natural Algoritmo de rede neural Algoritmo de clusterização hierárquica Patrimônio cultural Aprendizaje automático Procesamiento natural del linguaje Algoritmo de red neuronal Algoritmo de agrupamiento jerárquico Patrimonio cultural Machine learning Natural language processing Neural network algorithm Hierarchical clustering algorithm Cultural heritage |
topic |
Aprendizado de máquina Processamento de linguagem natural Algoritmo de rede neural Algoritmo de clusterização hierárquica Patrimônio cultural Aprendizaje automático Procesamiento natural del linguaje Algoritmo de red neuronal Algoritmo de agrupamiento jerárquico Patrimonio cultural Machine learning Natural language processing Neural network algorithm Hierarchical clustering algorithm Cultural heritage |
description |
Aims to verify the potential of applying Natural Language Processing (NLP) and Machine Learning (ML) techniques in the thematic categorization of scientific articles on the theme “cultural heritage” from two situations in which categories are established a priori and later. Applied research is developed, with quantitative and qualitative results, where the first corpus consisting of scientific articles in Portuguese, on a thematic basis of Information Science, manually selected and categorized; and the second corpus, composed of scientific articles in English retrieved from the Web of Science, automatically categorized by search strategies and application of Booleans. Both were submitted to two categorization test procedures (supervised and unsupervised algorithm). The results show that in both, the participation of the researcher is essential in defining the representativeness of the chosen sample, and this has an impact on the precision and accuracy of the applied algorithms. The importance of detailing and rigor in the pre-processing of data and sample size is highlighted, however, it is emphasized that, in the case of this study, only a larger volume of data did not guarantee that the results were representative from the point of view of the domain studied, which warns that there are always multidisciplinary discussions and analyzes that allow verifying and readjusting the sample parameters. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-03-27 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://periodicos.unb.br/index.php/RICI/article/view/47537 10.26512/rici.v16.n1.2023.47537 |
url |
https://periodicos.unb.br/index.php/RICI/article/view/47537 |
identifier_str_mv |
10.26512/rici.v16.n1.2023.47537 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://periodicos.unb.br/index.php/RICI/article/view/47537/36583 |
dc.rights.driver.fl_str_mv |
https://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by/4.0 |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação |
publisher.none.fl_str_mv |
Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação |
dc.source.none.fl_str_mv |
Revista Ibero-Americana de Ciência da Informação; Vol. 16 No. 1 (2023): Revista Ibero-americana de Ciência da Informação; 167-184 Revista Ibero-Americana de Ciência da Informação; Vol. 16 Núm. 1 (2023): Revista Ibero-americana de Ciência da Informação; 167-184 Revista Ibero-Americana de Ciência da Informação; v. 16 n. 1 (2023): Revista Ibero-americana de Ciência da Informação; 167-184 1983-5213 10.26512/rici.v16.n1.2023 reponame:Revista Ibero-americana de Ciência da Informação instname:Universidade de Brasília (UnB) instacron:UNB |
instname_str |
Universidade de Brasília (UnB) |
instacron_str |
UNB |
institution |
UNB |
reponame_str |
Revista Ibero-americana de Ciência da Informação |
collection |
Revista Ibero-americana de Ciência da Informação |
repository.name.fl_str_mv |
Revista Ibero-americana de Ciência da Informação - Universidade de Brasília (UnB) |
repository.mail.fl_str_mv |
||rici@unb.br |
_version_ |
1800211000419418112 |