Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Revista de Teoria da História |
Texto Completo: | https://revistas.ufg.br/teoria/article/view/79370 |
Resumo: | Zusammenfassung Dieser Artikel untersucht die Semantik historischer Zeiten unter Verwendung der Verarbeitung natürlicher Sprache (NLP). Wir haben die Woke-Modellreihe (Word Embedding and Knowledge Model) entwickelt, die auf Wortvektorisierungsalgorithmen wie Word2Vec basiert und auf einem Korpus von Dissertationen und Abschlussarbeiten der Universität XXXX (2003-2024) trainiert wurde. Die Modelle Woke-HST und Woke-CFH wurden speziell in Geschichte und Geisteswissenschaften trainiert. Der Entwicklungsprozess umfasste Datenerfassung, Vorverarbeitung, Training und Validierung, wobei inkrementelles Lernen eingesetzt wurde, um semantische Variationen im Laufe der Zeit zu erfassen. Vorläufige Ergebnisse zeigen Variationen in der Stabilität der Bedeutungen von Konzepten wie "Rasse", "Geschlecht" und "Klasse". Wir präsentieren auch SKINNER, eine erklärbare KI (XAI)-Komponente, die spezifische linguistische Kontexte verfolgt und zur Transparenz der Ergebnisse beiträgt. Wir kommen zu dem Schluss, dass die vollständige Erfassung von "Erfahrungsräumen" komplexere Modelle und einen breiteren Datenkorpus erfordert. Der nächste Schritt des Projekts besteht darin, die Daten zu skalieren und Transformer-basierte Modelle zu verwenden, um eine genauere Darstellung historischer Konzepte zu erreichen. Diese Arbeit ist Teil eines interdisziplinären Projekts, das darauf abzielt, zu einer theoretisch orientierten digitalen Geschichtsschreibung beizutragen, die quantitative und qualitative Ansätze integriert und Gelehrsamkeit mit Big-Data-Analyse verbindet. Schlüsselwörter: Begriffsgeschichte, maschinelles Lernen, Vektorsemantik |
id |
UFG-10_660858a29115b76d77db29eb17e037bd |
---|---|
oai_identifier_str |
oai:ojs.revistas.ufg.br:article/79370 |
network_acronym_str |
UFG-10 |
network_name_str |
Revista de Teoria da História |
repository_id_str |
|
spelling |
Wörter und Tokens: Vektorprojektion für die Semantik historischer ZeitenWords and tokens: Vector projection for the semantics of historical timesLas palabras y los tokens: proyección vectorial para el estudio de la semántica de los tiempos históricosLes mots et les jetons: projection vectorielle pour l'étude de la sémantique des temps historiquesLe parole e i token: proiezione vettoriale applicata allo studio della semantica dei tempi storiciAs palavras e os tokens: Projeção vetorial aplicada ao estudo da semântica dos tempos históricosConceptual historymachine learningvector semanticsHistória conceitualaprendizado de máquinasemântica vetorialZusammenfassung Dieser Artikel untersucht die Semantik historischer Zeiten unter Verwendung der Verarbeitung natürlicher Sprache (NLP). Wir haben die Woke-Modellreihe (Word Embedding and Knowledge Model) entwickelt, die auf Wortvektorisierungsalgorithmen wie Word2Vec basiert und auf einem Korpus von Dissertationen und Abschlussarbeiten der Universität XXXX (2003-2024) trainiert wurde. Die Modelle Woke-HST und Woke-CFH wurden speziell in Geschichte und Geisteswissenschaften trainiert. Der Entwicklungsprozess umfasste Datenerfassung, Vorverarbeitung, Training und Validierung, wobei inkrementelles Lernen eingesetzt wurde, um semantische Variationen im Laufe der Zeit zu erfassen. Vorläufige Ergebnisse zeigen Variationen in der Stabilität der Bedeutungen von Konzepten wie "Rasse", "Geschlecht" und "Klasse". Wir präsentieren auch SKINNER, eine erklärbare KI (XAI)-Komponente, die spezifische linguistische Kontexte verfolgt und zur Transparenz der Ergebnisse beiträgt. Wir kommen zu dem Schluss, dass die vollständige Erfassung von "Erfahrungsräumen" komplexere Modelle und einen breiteren Datenkorpus erfordert. Der nächste Schritt des Projekts besteht darin, die Daten zu skalieren und Transformer-basierte Modelle zu verwenden, um eine genauere Darstellung historischer Konzepte zu erreichen. Diese Arbeit ist Teil eines interdisziplinären Projekts, das darauf abzielt, zu einer theoretisch orientierten digitalen Geschichtsschreibung beizutragen, die quantitative und qualitative Ansätze integriert und Gelehrsamkeit mit Big-Data-Analyse verbindet. Schlüsselwörter: Begriffsgeschichte, maschinelles Lernen, VektorsemantikThis article explores the semantics of historical times using Natural Language Processing (NLP). We developed the Woke family of models (Word Embedding and Knowledge Model), utilizing word vectorization algorithms such as Word2Vec, trained on a corpus of theses and dissertations from the University of Santa Catarina (2003-2024). The Woke-HST and Woke-CFH models were specifically trained in History and Humanities. The Woke-UFSC models, in turn, were exposed to 96.25% of the native digital data available in our university's repository. The development process involved data collection, preprocessing, training, and validation, using micro-diachronic, temporal and incremental learning methods to capture semantic variations over time. Preliminary results show variations in the stability of meanings for concepts such as "race," "gender," and "class." We also present SKINNER, an explainable AI (XAI) component that tracks specific linguistic contexts, contributing to the transparency of the results. We conclude that fully capturing "spaces of experience" requires more complex models and a broader data corpus. The next step in the project is to scale the data and use Transformer-based models for a more precise representation of historical concepts. This work is part of an interdisciplinary project aimed at contributing to a theoretically oriented digital history that integrates quantitative and qualitative approaches, combining scholarship and big data analysis.Resumen Este artículo explora la semántica de los tiempos históricos utilizando el procesamiento del lenguaje natural (PLN). Hemos desarrollado la serie de modelos Woke (Word Embedding and Knowledge Model), utilizando algoritmos de vectorización de palabras como Word2Vec, entrenados con un corpus de tesis y disertaciones de la Universidad XXXX (2003-2024). Los modelos Woke-HST y Woke-CFH fueron entrenados específicamente en Historia y Humanidades. El proceso de desarrollo involucró la recopilación de datos, el preprocesamiento, el entrenamiento y la validación, utilizando el aprendizaje incremental para capturar las variaciones semánticas a lo largo del tiempo. Los resultados preliminares muestran variaciones en la estabilidad de los significados de conceptos como "raza", "género" y "clase". También presentamos SKINNER, un componente de IA explicable (XAI) que rastrea contextos lingüísticos específicos, contribuyendo a la transparencia de los resultados. Concluimos que la captura completa de los "espacios de experiencia" requiere modelos más complejos y un corpus de datos más amplio. El siguiente paso del proyecto es escalar los datos y utilizar modelos basados en la arquitectura Transformer para una representación más precisa de los conceptos históricos. Este trabajo es parte de un proyecto interdisciplinar que busca contribuir a una historia digital teóricamente orientada que integre enfoques cuantitativos y cualitativos, combinando erudición y análisis de big data. Palabras clave: Historia conceptual, aprendizaje automático, semántica vectorialRésumé Cet article explore la sémantique des temps historiques en utilisant le traitement du langage naturel (NLP). Nous avons développé la série de modèles Woke (Word Embedding and Knowledge Model), en utilisant des algorithmes de vectorisation des mots comme Word2Vec, entraînés sur un corpus de thèses et mémoires de l'Université de XXXX (2003-2024). Les modèles Woke-HST et Woke-CFH ont été spécifiquement entraînés en histoire et en sciences humaines. Le processus de développement a impliqué la collecte de données, le prétraitement, l'entraînement et la validation, en utilisant l'apprentissage incrémental pour capturer les variations sémantiques au fil du temps. Les résultats préliminaires montrent des variations dans la stabilité des significations de concepts tels que « race », « genre » et « classe ». Nous présentons également SKINNER, un composant d'IA explicable (XAI) qui suit des contextes linguistiques spécifiques, contribuant à la transparence des résultats. Nous concluons que la capture complète des « espaces d'expérience » nécessite des modèles plus complexes et un corpus de données plus large. La prochaine étape du projet est de mettre à l'échelle les données et d'utiliser des modèles basés sur Transformer pour une représentation plus précise des concepts historiques. Ce travail fait partie d'un projet interdisciplinaire visant à contribuer à une histoire numérique théoriquement orientée qui intègre des approches quantitatives et qualitatives, combinant érudition et analyse de big data. Mots-clés : Histoire conceptuelle, apprentissage automatique, sémantique vectorielleRiassunto Questo articolo esplora la semantica dei tempi storici utilizzando l'Elaborazione del Linguaggio Naturale (NLP). Abbiamo sviluppato la serie di modelli Woke (Word Embedding and Knowledge Model), utilizzando algoritmi di vettorizzazione delle parole come Word2Vec, addestrati su un corpus di tesi e dissertazioni dell'Università di XXXX (2003-2024). I modelli Woke-HST e Woke-CFH sono stati specificamente addestrati in Storia e Scienze Umane. Il processo di sviluppo ha coinvolto la raccolta dei dati, il pre-processamento, l'addestramento e la validazione, utilizzando l'apprendimento incrementale per catturare le variazioni semantiche nel tempo. I risultati preliminari mostrano variazioni nella stabilità dei significati per concetti come "razza", "genere" e "classe". Presentiamo anche SKINNER, un componente di IA spiegabile (XAI) che traccia contesti linguistici specifici, contribuendo alla trasparenza dei risultati. Concludiamo che per catturare completamente gli "spazi di esperienza" sono necessari modelli più complessi e un corpus di dati più ampio. Il prossimo passo del progetto è scalare i dati e utilizzare modelli basati su Transformer per una rappresentazione più precisa dei concetti storici. Questo lavoro fa parte di un progetto interdisciplinare volto a contribuire a una storia digitale teoricamente orientata che integri approcci quantitativi e qualitativi, combinando erudizione e analisi di big data. Parole chiave: Storia concettuale, apprendimento automatico, semantica vettorialeEste artigo explora a semântica dos tempos históricos usando Processamento de Linguagem Natural (PLN). Desenvolvemos a família de modelos Woke (Word Embedding and Knowledge Model), utilizando algoritmos de vetorização de palavras como o Word2Vec, treinados em um corpus de teses e dissertações da Universidade Federal de Santa Catarina (2003-2024). Os modelos Woke-HST e Woke-CFH foram treinados especificamente em História e Ciências Humanas. Já os modelos Woke-UFSC foram expostos a 96,25% dos dados nativo digitais disponíveis no repositório de nossa universidade. O desenvolvimento envolveu coleta, pré-processamento, treinamento e validação dos dados, usando aprendizados micro-diacrônico, temporal e incremental para capturar variações semânticas ao longo do tempo. Os resultados preliminares mostram mudanças na estabilidade dos significados de conceitos como “raça”, “gênero” e “classe”. Apresentamos também SKINNER, um componente de IA explicável (XAI) que rastreia contextos linguísticos específicos, contribuindo para a transparência dos resultados. Concluímos que a captura completa de “espaços de experiência” requer modelos mais complexos e um corpus de dados mais amplo. O próximo passo do projeto é escalar os dados e usar modelos baseados na arquitetura Transformer para uma representação mais precisa dos conceitos históricos. Este trabalho é parte de um projeto interdisciplinar que busca contribuir para uma história digital teoricamente orientada que integre abordagens quantitativas e qualitativas, aliando erudição e análise de big data.Universidade Federal de Goiás2024-08-04info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfapplication/pdfhttps://revistas.ufg.br/teoria/article/view/7937010.5216/rth.v27i1.79370Revista de Teoria da História; Vol. 27 No. 1 (2024): História Digital: arquivo, memória e narrativa na Era do Big Data; 7 - 50Revista de Teoria da História; v. 27 n. 1 (2024): História Digital: arquivo, memória e narrativa na Era do Big Data; 7 - 502175-5892reponame:Revista de Teoria da Históriainstname:Universidade Federal de Goiás (UFG)instacron:UFGporhttps://revistas.ufg.br/teoria/article/view/79370/41261https://revistas.ufg.br/teoria/article/view/79370/41262Copyright (c) 2024 Revista de Teoria da Históriahttps://creativecommons.org/licenses/by-nc-nd/4.0info:eu-repo/semantics/openAccess Bonaldo, Rodrigo Bragio2024-08-12T20:00:19Zoai:ojs.revistas.ufg.br:article/79370Revistahttps://revistas.ufg.br/teoria/PUBhttps://revistas.ufg.br/teoria/oai||revistateoriadahistoria@hotmail.com2175-58922175-5892opendoar:2024-08-12T20:00:19Revista de Teoria da História - Universidade Federal de Goiás (UFG)false |
dc.title.none.fl_str_mv |
Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten Words and tokens: Vector projection for the semantics of historical times Las palabras y los tokens: proyección vectorial para el estudio de la semántica de los tiempos históricos Les mots et les jetons: projection vectorielle pour l'étude de la sémantique des temps historiques Le parole e i token: proiezione vettoriale applicata allo studio della semantica dei tempi storici As palavras e os tokens: Projeção vetorial aplicada ao estudo da semântica dos tempos históricos |
title |
Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten |
spellingShingle |
Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten Bonaldo, Rodrigo Bragio Conceptual history machine learning vector semantics História conceitual aprendizado de máquina semântica vetorial |
title_short |
Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten |
title_full |
Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten |
title_fullStr |
Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten |
title_full_unstemmed |
Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten |
title_sort |
Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten |
author |
Bonaldo, Rodrigo Bragio |
author_facet |
Bonaldo, Rodrigo Bragio |
author_role |
author |
dc.contributor.author.fl_str_mv |
Bonaldo, Rodrigo Bragio |
dc.subject.por.fl_str_mv |
Conceptual history machine learning vector semantics História conceitual aprendizado de máquina semântica vetorial |
topic |
Conceptual history machine learning vector semantics História conceitual aprendizado de máquina semântica vetorial |
description |
Zusammenfassung Dieser Artikel untersucht die Semantik historischer Zeiten unter Verwendung der Verarbeitung natürlicher Sprache (NLP). Wir haben die Woke-Modellreihe (Word Embedding and Knowledge Model) entwickelt, die auf Wortvektorisierungsalgorithmen wie Word2Vec basiert und auf einem Korpus von Dissertationen und Abschlussarbeiten der Universität XXXX (2003-2024) trainiert wurde. Die Modelle Woke-HST und Woke-CFH wurden speziell in Geschichte und Geisteswissenschaften trainiert. Der Entwicklungsprozess umfasste Datenerfassung, Vorverarbeitung, Training und Validierung, wobei inkrementelles Lernen eingesetzt wurde, um semantische Variationen im Laufe der Zeit zu erfassen. Vorläufige Ergebnisse zeigen Variationen in der Stabilität der Bedeutungen von Konzepten wie "Rasse", "Geschlecht" und "Klasse". Wir präsentieren auch SKINNER, eine erklärbare KI (XAI)-Komponente, die spezifische linguistische Kontexte verfolgt und zur Transparenz der Ergebnisse beiträgt. Wir kommen zu dem Schluss, dass die vollständige Erfassung von "Erfahrungsräumen" komplexere Modelle und einen breiteren Datenkorpus erfordert. Der nächste Schritt des Projekts besteht darin, die Daten zu skalieren und Transformer-basierte Modelle zu verwenden, um eine genauere Darstellung historischer Konzepte zu erreichen. Diese Arbeit ist Teil eines interdisziplinären Projekts, das darauf abzielt, zu einer theoretisch orientierten digitalen Geschichtsschreibung beizutragen, die quantitative und qualitative Ansätze integriert und Gelehrsamkeit mit Big-Data-Analyse verbindet. Schlüsselwörter: Begriffsgeschichte, maschinelles Lernen, Vektorsemantik |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-08-04 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://revistas.ufg.br/teoria/article/view/79370 10.5216/rth.v27i1.79370 |
url |
https://revistas.ufg.br/teoria/article/view/79370 |
identifier_str_mv |
10.5216/rth.v27i1.79370 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://revistas.ufg.br/teoria/article/view/79370/41261 https://revistas.ufg.br/teoria/article/view/79370/41262 |
dc.rights.driver.fl_str_mv |
Copyright (c) 2024 Revista de Teoria da História https://creativecommons.org/licenses/by-nc-nd/4.0 info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Copyright (c) 2024 Revista de Teoria da História https://creativecommons.org/licenses/by-nc-nd/4.0 |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Goiás |
publisher.none.fl_str_mv |
Universidade Federal de Goiás |
dc.source.none.fl_str_mv |
Revista de Teoria da História; Vol. 27 No. 1 (2024): História Digital: arquivo, memória e narrativa na Era do Big Data; 7 - 50 Revista de Teoria da História; v. 27 n. 1 (2024): História Digital: arquivo, memória e narrativa na Era do Big Data; 7 - 50 2175-5892 reponame:Revista de Teoria da História instname:Universidade Federal de Goiás (UFG) instacron:UFG |
instname_str |
Universidade Federal de Goiás (UFG) |
instacron_str |
UFG |
institution |
UFG |
reponame_str |
Revista de Teoria da História |
collection |
Revista de Teoria da História |
repository.name.fl_str_mv |
Revista de Teoria da História - Universidade Federal de Goiás (UFG) |
repository.mail.fl_str_mv |
||revistateoriadahistoria@hotmail.com |
_version_ |
1809730282711941120 |