Text classification: an approach using machine learning

Detalhes bibliográficos
Autor(a) principal: Cardoso, Fábio Eder
Data de Publicação: 2023
Outros Autores: Ferneda, Edberto, Botega, Leonardo
Tipo de documento: Artigo
Idioma: por
Título da fonte: Revista EDICIC
DOI: 10.62758/re.v3i3.212
Texto Completo: https://ojs.edicic.org/revistaedicic/article/view/212
Resumo: Text classification has been employed as a foundation for organizing knowledge across a wide range of fields, as it allows for the grouping of categories to guide the segmentation of these domains. In the digital information age, where there is an abundance of data spread across cloud computing environments, the use of informational technologies is essential to facilitate the classification process of this data. Within this framework, Information Science plays a pivotal role in the production, organization, transmission, and utilization of information across diverse fields, including computer science, mathematics, artificial intelligence, among others. Through technology, when information is appropriately classified, it can be made available to society more effectively. The primary aim of this article is to address contexts regarding text classification using Machine Learning. This research is exploratory, adopting an experimental method, and employs a quantitative approach as its data analysis technique. As a result, after utilizing the Euclidean distance algorithm, a distance matrix and hierarchical grouping were established, along with a word cloud, highlighting terms of significance from the documents.
id EDICIC-1_6dec99ea3adeb5cbdba38fc92f2b909b
oai_identifier_str oai:ojs.pkp.sfu.ca:article/212
network_acronym_str EDICIC-1
network_name_str Revista EDICIC
spelling Text classification: an approach using machine learningClasificación de textos: un enfoque con uso de machine learningClassificação de textos: uma abordagem com uso de machine learningClassificaçãoMachine LearningAlgoritmosInformaçãoCiência da InformaçãoClasificaciónMachine LearningAlgoritmosInformaciónCiencias de la InformaciónClassificationMachine LearningAlgorithmsInformationInformation Science Text classification has been employed as a foundation for organizing knowledge across a wide range of fields, as it allows for the grouping of categories to guide the segmentation of these domains. In the digital information age, where there is an abundance of data spread across cloud computing environments, the use of informational technologies is essential to facilitate the classification process of this data. Within this framework, Information Science plays a pivotal role in the production, organization, transmission, and utilization of information across diverse fields, including computer science, mathematics, artificial intelligence, among others. Through technology, when information is appropriately classified, it can be made available to society more effectively. The primary aim of this article is to address contexts regarding text classification using Machine Learning. This research is exploratory, adopting an experimental method, and employs a quantitative approach as its data analysis technique. As a result, after utilizing the Euclidean distance algorithm, a distance matrix and hierarchical grouping were established, along with a word cloud, highlighting terms of significance from the documents. La clasificación de textos ha sido utilizada como base para la organización del conocimiento en las más diversas áreas, ya que permite organizar grupos de categorías para guiar el corte de estos dominios. En la era de la información digital, donde existe una gran cantidad de datos diseminados en entornos de computación en la nube, es necesario el uso de tecnologías informacionales para ayudar en el proceso de clasificación de estos datos. En este contexto, la Ciencia de la Información contribuye en el proceso de producción, organización, transmisión y uso de la información en las más variadas áreas, entre ellas, la ciencia de la computación, matemáticas, inteligencia artificial, entre otras. A través de la tecnología, cuando la información está adecuadamente clasificada, puede ser puesta a disposición de la sociedad de manera más eficaz. El objetivo principal de este artículo es abordar contextos sobre la clasificación de textos con el uso de Machine Learning. Esta investigación es de tipo exploratoria, con un método experimental, y utiliza un enfoque cuantitativo como técnica de análisis de datos. Como resultado, después de utilizar el algoritmo de distancia euclidiana, se estableció una matriz de distancias y un agrupamiento jerárquico, además de una nube de palabras, resaltando expresiones con términos relevantes de los documentos.A classificação de textos tem sido utilizada como base para a organização do conhecimento nas mais variadas áreas, uma vez que proporciona organizar grupos de categorias para nortear recortes desses domínios. Na era da informação digital, na qual existe uma vasta quantidade de dados disseminados em ambientes de computação em nuvem, é necessário o uso de tecnologias informacionais, para auxiliar o processo de classificação desses dados. Neste contexto, a Ciência da Informação contribui no processo de produção, organização, transmissão e uso da informação, nas mais variadas áreas, dentre elas, a ciência da computação, matemática, inteligência artificial, dentre outras. Por meio da tecnologia, quando a informação é adequadamente classificada, ela pode ser disponibilizada de maneira mais eficaz para a sociedade. O objetivo geral deste artigo é abordar contextos sobre classificação de textos com uso de Machine Learning. Esta pesquisa é do tipo exploratória, de método experimental, utilizou-se a abordagem quantitativa como técnica de análise de dados. Como resultado, após utilizar o algoritmo de distância Euclidiana, estabeleceu-se uma matriz de distâncias e um agrupamento hierárquico, além de uma nuvem de palavras, retornando expressões com termos relevantes dos documentos.Asociación de Educación e Investigación en Ciencia de la Información de Iberoamérica y el Caribe2023-12-21info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionResearch PaperArtículo de InvestigaciónArtigo de Pesquisaapplication/pdfhttps://ojs.edicic.org/revistaedicic/article/view/21210.62758/re.v3i3.212Revista EDICIC; Vol. 3 No. 3 (2023): Special Issue: Information Literacy, digital humanities and gender studies: trends and challenges; 1-17Revista EDICIC; Vol. 3 Núm. 3 (2023): Número especial: Alfabetización informacional, humanidades digitales y estudios de género: tendencias y desafíos; 1-17Revista EDICIC; v. 3 n. 3 (2023): Número Especial: Competência em Informação, humanidades digitais e estudos de gênero: tendencias e desafíos ; 1-172236-575310.62758/re.v3i3reponame:Revista EDICICinstname:Asociación de Educación e Investigación en Ciencia de la Información de Iberoamérica y el Caribe (EDICIC)instacron:EDICICporhttps://ojs.edicic.org/revistaedicic/article/view/212/227Derechos de autor 2023 Revista EDICIChttps://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessCardoso, Fábio Eder Ferneda, EdbertoBotega, Leonardo2024-04-26T11:27:45Zoai:ojs.pkp.sfu.ca:article/212Revistahttp://ojs.edicic.org/index.php/revistaedicicPRIhttp://ojs.edicic.org/index.php/revistaedicic/oaiedicic@edicic.org2236-57532236-5753opendoar:2024-04-26T11:27:45Revista EDICIC - Asociación de Educación e Investigación en Ciencia de la Información de Iberoamérica y el Caribe (EDICIC)false
dc.title.none.fl_str_mv Text classification: an approach using machine learning
Clasificación de textos: un enfoque con uso de machine learning
Classificação de textos: uma abordagem com uso de machine learning
title Text classification: an approach using machine learning
spellingShingle Text classification: an approach using machine learning
Text classification: an approach using machine learning
Cardoso, Fábio Eder
Classificação
Machine Learning
Algoritmos
Informação
Ciência da Informação
Clasificación
Machine Learning
Algoritmos
Información
Ciencias de la Información
Classification
Machine Learning
Algorithms
Information
Information Science
Cardoso, Fábio Eder
Classificação
Machine Learning
Algoritmos
Informação
Ciência da Informação
Clasificación
Machine Learning
Algoritmos
Información
Ciencias de la Información
Classification
Machine Learning
Algorithms
Information
Information Science
title_short Text classification: an approach using machine learning
title_full Text classification: an approach using machine learning
title_fullStr Text classification: an approach using machine learning
Text classification: an approach using machine learning
title_full_unstemmed Text classification: an approach using machine learning
Text classification: an approach using machine learning
title_sort Text classification: an approach using machine learning
author Cardoso, Fábio Eder
author_facet Cardoso, Fábio Eder
Cardoso, Fábio Eder
Ferneda, Edberto
Botega, Leonardo
Ferneda, Edberto
Botega, Leonardo
author_role author
author2 Ferneda, Edberto
Botega, Leonardo
author2_role author
author
dc.contributor.author.fl_str_mv Cardoso, Fábio Eder
Ferneda, Edberto
Botega, Leonardo
dc.subject.por.fl_str_mv Classificação
Machine Learning
Algoritmos
Informação
Ciência da Informação
Clasificación
Machine Learning
Algoritmos
Información
Ciencias de la Información
Classification
Machine Learning
Algorithms
Information
Information Science
topic Classificação
Machine Learning
Algoritmos
Informação
Ciência da Informação
Clasificación
Machine Learning
Algoritmos
Información
Ciencias de la Información
Classification
Machine Learning
Algorithms
Information
Information Science
description Text classification has been employed as a foundation for organizing knowledge across a wide range of fields, as it allows for the grouping of categories to guide the segmentation of these domains. In the digital information age, where there is an abundance of data spread across cloud computing environments, the use of informational technologies is essential to facilitate the classification process of this data. Within this framework, Information Science plays a pivotal role in the production, organization, transmission, and utilization of information across diverse fields, including computer science, mathematics, artificial intelligence, among others. Through technology, when information is appropriately classified, it can be made available to society more effectively. The primary aim of this article is to address contexts regarding text classification using Machine Learning. This research is exploratory, adopting an experimental method, and employs a quantitative approach as its data analysis technique. As a result, after utilizing the Euclidean distance algorithm, a distance matrix and hierarchical grouping were established, along with a word cloud, highlighting terms of significance from the documents.
publishDate 2023
dc.date.none.fl_str_mv 2023-12-21
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
Research Paper
Artículo de Investigación
Artigo de Pesquisa
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://ojs.edicic.org/revistaedicic/article/view/212
10.62758/re.v3i3.212
url https://ojs.edicic.org/revistaedicic/article/view/212
identifier_str_mv 10.62758/re.v3i3.212
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://ojs.edicic.org/revistaedicic/article/view/212/227
dc.rights.driver.fl_str_mv Derechos de autor 2023 Revista EDICIC
https://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Derechos de autor 2023 Revista EDICIC
https://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Asociación de Educación e Investigación en Ciencia de la Información de Iberoamérica y el Caribe
publisher.none.fl_str_mv Asociación de Educación e Investigación en Ciencia de la Información de Iberoamérica y el Caribe
dc.source.none.fl_str_mv Revista EDICIC; Vol. 3 No. 3 (2023): Special Issue: Information Literacy, digital humanities and gender studies: trends and challenges; 1-17
Revista EDICIC; Vol. 3 Núm. 3 (2023): Número especial: Alfabetización informacional, humanidades digitales y estudios de género: tendencias y desafíos; 1-17
Revista EDICIC; v. 3 n. 3 (2023): Número Especial: Competência em Informação, humanidades digitais e estudos de gênero: tendencias e desafíos ; 1-17
2236-5753
10.62758/re.v3i3
reponame:Revista EDICIC
instname:Asociación de Educación e Investigación en Ciencia de la Información de Iberoamérica y el Caribe (EDICIC)
instacron:EDICIC
instname_str Asociación de Educación e Investigación en Ciencia de la Información de Iberoamérica y el Caribe (EDICIC)
instacron_str EDICIC
institution EDICIC
reponame_str Revista EDICIC
collection Revista EDICIC
repository.name.fl_str_mv Revista EDICIC - Asociación de Educación e Investigación en Ciencia de la Información de Iberoamérica y el Caribe (EDICIC)
repository.mail.fl_str_mv edicic@edicic.org
_version_ 1822180712789311488
dc.identifier.doi.none.fl_str_mv 10.62758/re.v3i3.212