Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten

Detalhes bibliográficos
Autor(a) principal: Bonaldo, Rodrigo Bragio
Data de Publicação: 2024
Tipo de documento: Artigo
Idioma: por
Título da fonte: Revista de Teoria da História
Texto Completo: https://revistas.ufg.br/teoria/article/view/79370
Resumo: Zusammenfassung Dieser Artikel untersucht die Semantik historischer Zeiten unter Verwendung der Verarbeitung natürlicher Sprache (NLP). Wir haben die Woke-Modellreihe (Word Embedding and Knowledge Model) entwickelt, die auf Wortvektorisierungsalgorithmen wie Word2Vec basiert und auf einem Korpus von Dissertationen und Abschlussarbeiten der Universität XXXX (2003-2024) trainiert wurde. Die Modelle Woke-HST und Woke-CFH wurden speziell in Geschichte und Geisteswissenschaften trainiert. Der Entwicklungsprozess umfasste Datenerfassung, Vorverarbeitung, Training und Validierung, wobei inkrementelles Lernen eingesetzt wurde, um semantische Variationen im Laufe der Zeit zu erfassen. Vorläufige Ergebnisse zeigen Variationen in der Stabilität der Bedeutungen von Konzepten wie "Rasse", "Geschlecht" und "Klasse". Wir präsentieren auch SKINNER, eine erklärbare KI (XAI)-Komponente, die spezifische linguistische Kontexte verfolgt und zur Transparenz der Ergebnisse beiträgt. Wir kommen zu dem Schluss, dass die vollständige Erfassung von "Erfahrungsräumen" komplexere Modelle und einen breiteren Datenkorpus erfordert. Der nächste Schritt des Projekts besteht darin, die Daten zu skalieren und Transformer-basierte Modelle zu verwenden, um eine genauere Darstellung historischer Konzepte zu erreichen. Diese Arbeit ist Teil eines interdisziplinären Projekts, das darauf abzielt, zu einer theoretisch orientierten digitalen Geschichtsschreibung beizutragen, die quantitative und qualitative Ansätze integriert und Gelehrsamkeit mit Big-Data-Analyse verbindet. Schlüsselwörter: Begriffsgeschichte, maschinelles Lernen, Vektorsemantik
id UFG-10_660858a29115b76d77db29eb17e037bd
oai_identifier_str oai:ojs.revistas.ufg.br:article/79370
network_acronym_str UFG-10
network_name_str Revista de Teoria da História
repository_id_str
spelling Wörter und Tokens: Vektorprojektion für die Semantik historischer ZeitenWords and tokens: Vector projection for the semantics of historical timesLas palabras y los tokens: proyección vectorial para el estudio de la semántica de los tiempos históricosLes mots et les jetons: projection vectorielle pour l'étude de la sémantique des temps historiquesLe parole e i token: proiezione vettoriale applicata allo studio della semantica dei tempi storiciAs palavras e os tokens: Projeção vetorial aplicada ao estudo da semântica dos tempos históricosConceptual historymachine learningvector semanticsHistória conceitualaprendizado de máquinasemântica vetorialZusammenfassung Dieser Artikel untersucht die Semantik historischer Zeiten unter Verwendung der Verarbeitung natürlicher Sprache (NLP). Wir haben die Woke-Modellreihe (Word Embedding and Knowledge Model) entwickelt, die auf Wortvektorisierungsalgorithmen wie Word2Vec basiert und auf einem Korpus von Dissertationen und Abschlussarbeiten der Universität XXXX (2003-2024) trainiert wurde. Die Modelle Woke-HST und Woke-CFH wurden speziell in Geschichte und Geisteswissenschaften trainiert. Der Entwicklungsprozess umfasste Datenerfassung, Vorverarbeitung, Training und Validierung, wobei inkrementelles Lernen eingesetzt wurde, um semantische Variationen im Laufe der Zeit zu erfassen. Vorläufige Ergebnisse zeigen Variationen in der Stabilität der Bedeutungen von Konzepten wie "Rasse", "Geschlecht" und "Klasse". Wir präsentieren auch SKINNER, eine erklärbare KI (XAI)-Komponente, die spezifische linguistische Kontexte verfolgt und zur Transparenz der Ergebnisse beiträgt. Wir kommen zu dem Schluss, dass die vollständige Erfassung von "Erfahrungsräumen" komplexere Modelle und einen breiteren Datenkorpus erfordert. Der nächste Schritt des Projekts besteht darin, die Daten zu skalieren und Transformer-basierte Modelle zu verwenden, um eine genauere Darstellung historischer Konzepte zu erreichen. Diese Arbeit ist Teil eines interdisziplinären Projekts, das darauf abzielt, zu einer theoretisch orientierten digitalen Geschichtsschreibung beizutragen, die quantitative und qualitative Ansätze integriert und Gelehrsamkeit mit Big-Data-Analyse verbindet. Schlüsselwörter: Begriffsgeschichte, maschinelles Lernen, VektorsemantikThis article explores the semantics of historical times using Natural Language Processing (NLP). We developed the Woke family of models (Word Embedding and Knowledge Model), utilizing word vectorization algorithms such as Word2Vec, trained on a corpus of theses and dissertations from the University of Santa Catarina (2003-2024). The Woke-HST and Woke-CFH models were specifically trained in History and Humanities. The Woke-UFSC models, in turn, were exposed to 96.25% of the native digital data available in our university's repository. The development process involved data collection, preprocessing, training, and validation, using micro-diachronic, temporal and incremental learning methods to capture semantic variations over time. Preliminary results show variations in the stability of meanings for concepts such as "race," "gender," and "class." We also present SKINNER, an explainable AI (XAI) component that tracks specific linguistic contexts, contributing to the transparency of the results. We conclude that fully capturing "spaces of experience" requires more complex models and a broader data corpus. The next step in the project is to scale the data and use Transformer-based models for a more precise representation of historical concepts. This work is part of an interdisciplinary project aimed at contributing to a theoretically oriented digital history that integrates quantitative and qualitative approaches, combining scholarship and big data analysis.Resumen Este artículo explora la semántica de los tiempos históricos utilizando el procesamiento del lenguaje natural (PLN). Hemos desarrollado la serie de modelos Woke (Word Embedding and Knowledge Model), utilizando algoritmos de vectorización de palabras como Word2Vec, entrenados con un corpus de tesis y disertaciones de la Universidad XXXX (2003-2024). Los modelos Woke-HST y Woke-CFH fueron entrenados específicamente en Historia y Humanidades. El proceso de desarrollo involucró la recopilación de datos, el preprocesamiento, el entrenamiento y la validación, utilizando el aprendizaje incremental para capturar las variaciones semánticas a lo largo del tiempo. Los resultados preliminares muestran variaciones en la estabilidad de los significados de conceptos como "raza", "género" y "clase". También presentamos SKINNER, un componente de IA explicable (XAI) que rastrea contextos lingüísticos específicos, contribuyendo a la transparencia de los resultados. Concluimos que la captura completa de los "espacios de experiencia" requiere modelos más complejos y un corpus de datos más amplio. El siguiente paso del proyecto es escalar los datos y utilizar modelos basados en la arquitectura Transformer para una representación más precisa de los conceptos históricos. Este trabajo es parte de un proyecto interdisciplinar que busca contribuir a una historia digital teóricamente orientada que integre enfoques cuantitativos y cualitativos, combinando erudición y análisis de big data. Palabras clave: Historia conceptual, aprendizaje automático, semántica vectorialRésumé Cet article explore la sémantique des temps historiques en utilisant le traitement du langage naturel (NLP). Nous avons développé la série de modèles Woke (Word Embedding and Knowledge Model), en utilisant des algorithmes de vectorisation des mots comme Word2Vec, entraînés sur un corpus de thèses et mémoires de l'Université de XXXX (2003-2024). Les modèles Woke-HST et Woke-CFH ont été spécifiquement entraînés en histoire et en sciences humaines. Le processus de développement a impliqué la collecte de données, le prétraitement, l'entraînement et la validation, en utilisant l'apprentissage incrémental pour capturer les variations sémantiques au fil du temps. Les résultats préliminaires montrent des variations dans la stabilité des significations de concepts tels que « race », « genre » et « classe ». Nous présentons également SKINNER, un composant d'IA explicable (XAI) qui suit des contextes linguistiques spécifiques, contribuant à la transparence des résultats. Nous concluons que la capture complète des « espaces d'expérience » nécessite des modèles plus complexes et un corpus de données plus large. La prochaine étape du projet est de mettre à l'échelle les données et d'utiliser des modèles basés sur Transformer pour une représentation plus précise des concepts historiques. Ce travail fait partie d'un projet interdisciplinaire visant à contribuer à une histoire numérique théoriquement orientée qui intègre des approches quantitatives et qualitatives, combinant érudition et analyse de big data. Mots-clés : Histoire conceptuelle, apprentissage automatique, sémantique vectorielleRiassunto Questo articolo esplora la semantica dei tempi storici utilizzando l'Elaborazione del Linguaggio Naturale (NLP). Abbiamo sviluppato la serie di modelli Woke (Word Embedding and Knowledge Model), utilizzando algoritmi di vettorizzazione delle parole come Word2Vec, addestrati su un corpus di tesi e dissertazioni dell'Università di XXXX (2003-2024). I modelli Woke-HST e Woke-CFH sono stati specificamente addestrati in Storia e Scienze Umane. Il processo di sviluppo ha coinvolto la raccolta dei dati, il pre-processamento, l'addestramento e la validazione, utilizzando l'apprendimento incrementale per catturare le variazioni semantiche nel tempo. I risultati preliminari mostrano variazioni nella stabilità dei significati per concetti come "razza", "genere" e "classe". Presentiamo anche SKINNER, un componente di IA spiegabile (XAI) che traccia contesti linguistici specifici, contribuendo alla trasparenza dei risultati. Concludiamo che per catturare completamente gli "spazi di esperienza" sono necessari modelli più complessi e un corpus di dati più ampio. Il prossimo passo del progetto è scalare i dati e utilizzare modelli basati su Transformer per una rappresentazione più precisa dei concetti storici. Questo lavoro fa parte di un progetto interdisciplinare volto a contribuire a una storia digitale teoricamente orientata che integri approcci quantitativi e qualitativi, combinando erudizione e analisi di big data. Parole chiave: Storia concettuale, apprendimento automatico, semantica vettorialeEste artigo explora a semântica dos tempos históricos usando Processamento de Linguagem Natural (PLN). Desenvolvemos a família de modelos Woke (Word Embedding and Knowledge Model), utilizando algoritmos de vetorização de palavras como o Word2Vec, treinados em um corpus de teses e dissertações da Universidade Federal de Santa Catarina (2003-2024). Os modelos Woke-HST e Woke-CFH foram treinados especificamente em História e Ciências Humanas. Já os modelos Woke-UFSC foram expostos a 96,25% dos dados nativo digitais disponíveis no repositório de nossa universidade. O desenvolvimento envolveu coleta, pré-processamento, treinamento e validação dos dados, usando aprendizados micro-diacrônico, temporal e incremental para capturar variações semânticas ao longo do tempo. Os resultados preliminares mostram mudanças na estabilidade dos significados de conceitos como “raça”, “gênero” e “classe”. Apresentamos também SKINNER, um componente de IA explicável (XAI) que rastreia contextos linguísticos específicos, contribuindo para a transparência dos resultados. Concluímos que a captura completa de “espaços de experiência” requer modelos mais complexos e um corpus de dados mais amplo. O próximo passo do projeto é escalar os dados e usar modelos baseados na arquitetura Transformer para uma representação mais precisa dos conceitos históricos. Este trabalho é parte de um projeto interdisciplinar que busca contribuir para uma história digital teoricamente orientada que integre abordagens quantitativas e qualitativas, aliando erudição e análise de big data.Universidade Federal de Goiás2024-08-04info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfapplication/pdfhttps://revistas.ufg.br/teoria/article/view/7937010.5216/rth.v27i1.79370Revista de Teoria da História; Vol. 27 No. 1 (2024): História Digital: arquivo, memória e narrativa na Era do Big Data; 7 - 50Revista de Teoria da História; v. 27 n. 1 (2024): História Digital: arquivo, memória e narrativa na Era do Big Data; 7 - 502175-5892reponame:Revista de Teoria da Históriainstname:Universidade Federal de Goiás (UFG)instacron:UFGporhttps://revistas.ufg.br/teoria/article/view/79370/41261https://revistas.ufg.br/teoria/article/view/79370/41262Copyright (c) 2024 Revista de Teoria da Históriahttps://creativecommons.org/licenses/by-nc-nd/4.0info:eu-repo/semantics/openAccess Bonaldo, Rodrigo Bragio2024-08-12T20:00:19Zoai:ojs.revistas.ufg.br:article/79370Revistahttps://revistas.ufg.br/teoria/PUBhttps://revistas.ufg.br/teoria/oai||revistateoriadahistoria@hotmail.com2175-58922175-5892opendoar:2024-08-12T20:00:19Revista de Teoria da História - Universidade Federal de Goiás (UFG)false
dc.title.none.fl_str_mv Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten
Words and tokens: Vector projection for the semantics of historical times
Las palabras y los tokens: proyección vectorial para el estudio de la semántica de los tiempos históricos
Les mots et les jetons: projection vectorielle pour l'étude de la sémantique des temps historiques
Le parole e i token: proiezione vettoriale applicata allo studio della semantica dei tempi storici
As palavras e os tokens: Projeção vetorial aplicada ao estudo da semântica dos tempos históricos
title Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten
spellingShingle Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten
Bonaldo, Rodrigo Bragio
Conceptual history
machine learning
vector semantics
História conceitual
aprendizado de máquina
semântica vetorial
title_short Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten
title_full Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten
title_fullStr Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten
title_full_unstemmed Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten
title_sort Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten
author Bonaldo, Rodrigo Bragio
author_facet Bonaldo, Rodrigo Bragio
author_role author
dc.contributor.author.fl_str_mv Bonaldo, Rodrigo Bragio
dc.subject.por.fl_str_mv Conceptual history
machine learning
vector semantics
História conceitual
aprendizado de máquina
semântica vetorial
topic Conceptual history
machine learning
vector semantics
História conceitual
aprendizado de máquina
semântica vetorial
description Zusammenfassung Dieser Artikel untersucht die Semantik historischer Zeiten unter Verwendung der Verarbeitung natürlicher Sprache (NLP). Wir haben die Woke-Modellreihe (Word Embedding and Knowledge Model) entwickelt, die auf Wortvektorisierungsalgorithmen wie Word2Vec basiert und auf einem Korpus von Dissertationen und Abschlussarbeiten der Universität XXXX (2003-2024) trainiert wurde. Die Modelle Woke-HST und Woke-CFH wurden speziell in Geschichte und Geisteswissenschaften trainiert. Der Entwicklungsprozess umfasste Datenerfassung, Vorverarbeitung, Training und Validierung, wobei inkrementelles Lernen eingesetzt wurde, um semantische Variationen im Laufe der Zeit zu erfassen. Vorläufige Ergebnisse zeigen Variationen in der Stabilität der Bedeutungen von Konzepten wie "Rasse", "Geschlecht" und "Klasse". Wir präsentieren auch SKINNER, eine erklärbare KI (XAI)-Komponente, die spezifische linguistische Kontexte verfolgt und zur Transparenz der Ergebnisse beiträgt. Wir kommen zu dem Schluss, dass die vollständige Erfassung von "Erfahrungsräumen" komplexere Modelle und einen breiteren Datenkorpus erfordert. Der nächste Schritt des Projekts besteht darin, die Daten zu skalieren und Transformer-basierte Modelle zu verwenden, um eine genauere Darstellung historischer Konzepte zu erreichen. Diese Arbeit ist Teil eines interdisziplinären Projekts, das darauf abzielt, zu einer theoretisch orientierten digitalen Geschichtsschreibung beizutragen, die quantitative und qualitative Ansätze integriert und Gelehrsamkeit mit Big-Data-Analyse verbindet. Schlüsselwörter: Begriffsgeschichte, maschinelles Lernen, Vektorsemantik
publishDate 2024
dc.date.none.fl_str_mv 2024-08-04
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://revistas.ufg.br/teoria/article/view/79370
10.5216/rth.v27i1.79370
url https://revistas.ufg.br/teoria/article/view/79370
identifier_str_mv 10.5216/rth.v27i1.79370
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://revistas.ufg.br/teoria/article/view/79370/41261
https://revistas.ufg.br/teoria/article/view/79370/41262
dc.rights.driver.fl_str_mv Copyright (c) 2024 Revista de Teoria da História
https://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Copyright (c) 2024 Revista de Teoria da História
https://creativecommons.org/licenses/by-nc-nd/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Goiás
publisher.none.fl_str_mv Universidade Federal de Goiás
dc.source.none.fl_str_mv Revista de Teoria da História; Vol. 27 No. 1 (2024): História Digital: arquivo, memória e narrativa na Era do Big Data; 7 - 50
Revista de Teoria da História; v. 27 n. 1 (2024): História Digital: arquivo, memória e narrativa na Era do Big Data; 7 - 50
2175-5892
reponame:Revista de Teoria da História
instname:Universidade Federal de Goiás (UFG)
instacron:UFG
instname_str Universidade Federal de Goiás (UFG)
instacron_str UFG
institution UFG
reponame_str Revista de Teoria da História
collection Revista de Teoria da História
repository.name.fl_str_mv Revista de Teoria da História - Universidade Federal de Goiás (UFG)
repository.mail.fl_str_mv ||revistateoriadahistoria@hotmail.com
_version_ 1809730282711941120