Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten

Bonaldo, Rodrigo Bragio

Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten

Detalhes bibliográficos
Autor(a) principal:	Bonaldo, Rodrigo Bragio
Data de Publicação:	2024
Tipo de documento:	Artigo
Idioma:	por
Título da fonte:	Revista de Teoria da História
Texto Completo:	https://revistas.ufg.br/teoria/article/view/79370
Resumo:	Zusammenfassung Dieser Artikel untersucht die Semantik historischer Zeiten unter Verwendung der Verarbeitung natürlicher Sprache (NLP). Wir haben die Woke-Modellreihe (Word Embedding and Knowledge Model) entwickelt, die auf Wortvektorisierungsalgorithmen wie Word2Vec basiert und auf einem Korpus von Dissertationen und Abschlussarbeiten der Universität XXXX (2003-2024) trainiert wurde. Die Modelle Woke-HST und Woke-CFH wurden speziell in Geschichte und Geisteswissenschaften trainiert. Der Entwicklungsprozess umfasste Datenerfassung, Vorverarbeitung, Training und Validierung, wobei inkrementelles Lernen eingesetzt wurde, um semantische Variationen im Laufe der Zeit zu erfassen. Vorläufige Ergebnisse zeigen Variationen in der Stabilität der Bedeutungen von Konzepten wie "Rasse", "Geschlecht" und "Klasse". Wir präsentieren auch SKINNER, eine erklärbare KI (XAI)-Komponente, die spezifische linguistische Kontexte verfolgt und zur Transparenz der Ergebnisse beiträgt. Wir kommen zu dem Schluss, dass die vollständige Erfassung von "Erfahrungsräumen" komplexere Modelle und einen breiteren Datenkorpus erfordert. Der nächste Schritt des Projekts besteht darin, die Daten zu skalieren und Transformer-basierte Modelle zu verwenden, um eine genauere Darstellung historischer Konzepte zu erreichen. Diese Arbeit ist Teil eines interdisziplinären Projekts, das darauf abzielt, zu einer theoretisch orientierten digitalen Geschichtsschreibung beizutragen, die quantitative und qualitative Ansätze integriert und Gelehrsamkeit mit Big-Data-Analyse verbindet. Schlüsselwörter: Begriffsgeschichte, maschinelles Lernen, Vektorsemantik

Metadados do item

id	UFG-10_660858a29115b76d77db29eb17e037bd
oai_identifier_str	oai:ojs.revistas.ufg.br:article/79370
network_acronym_str	UFG-10
network_name_str	Revista de Teoria da História
repository_id_str
spelling	Wörter und Tokens: Vektorprojektion für die Semantik historischer ZeitenWords and tokens: Vector projection for the semantics of historical timesLas palabras y los tokens: proyección vectorial para el estudio de la semántica de los tiempos históricosLes mots et les jetons: projection vectorielle pour l'étude de la sémantique des temps historiquesLe parole e i token: proiezione vettoriale applicata allo studio della semantica dei tempi storiciAs palavras e os tokens: Projeção vetorial aplicada ao estudo da semântica dos tempos históricosConceptual historymachine learningvector semanticsHistória conceitualaprendizado de máquinasemântica vetorialZusammenfassung Dieser Artikel untersucht die Semantik historischer Zeiten unter Verwendung der Verarbeitung natürlicher Sprache (NLP). Wir haben die Woke-Modellreihe (Word Embedding and Knowledge Model) entwickelt, die auf Wortvektorisierungsalgorithmen wie Word2Vec basiert und auf einem Korpus von Dissertationen und Abschlussarbeiten der Universität XXXX (2003-2024) trainiert wurde. Die Modelle Woke-HST und Woke-CFH wurden speziell in Geschichte und Geisteswissenschaften trainiert. Der Entwicklungsprozess umfasste Datenerfassung, Vorverarbeitung, Training und Validierung, wobei inkrementelles Lernen eingesetzt wurde, um semantische Variationen im Laufe der Zeit zu erfassen. Vorläufige Ergebnisse zeigen Variationen in der Stabilität der Bedeutungen von Konzepten wie "Rasse", "Geschlecht" und "Klasse". Wir präsentieren auch SKINNER, eine erklärbare KI (XAI)-Komponente, die spezifische linguistische Kontexte verfolgt und zur Transparenz der Ergebnisse beiträgt. Wir kommen zu dem Schluss, dass die vollständige Erfassung von "Erfahrungsräumen" komplexere Modelle und einen breiteren Datenkorpus erfordert. Der nächste Schritt des Projekts besteht darin, die Daten zu skalieren und Transformer-basierte Modelle zu verwenden, um eine genauere Darstellung historischer Konzepte zu erreichen. Diese Arbeit ist Teil eines interdisziplinären Projekts, das darauf abzielt, zu einer theoretisch orientierten digitalen Geschichtsschreibung beizutragen, die quantitative und qualitative Ansätze integriert und Gelehrsamkeit mit Big-Data-Analyse verbindet. Schlüsselwörter: Begriffsgeschichte, maschinelles Lernen, VektorsemantikThis article explores the semantics of historical times using Natural Language Processing (NLP). We developed the Woke family of models (Word Embedding and Knowledge Model), utilizing word vectorization algorithms such as Word2Vec, trained on a corpus of theses and dissertations from the University of Santa Catarina (2003-2024). The Woke-HST and Woke-CFH models were specifically trained in History and Humanities. The Woke-UFSC models, in turn, were exposed to 96.25% of the native digital data available in our university's repository. The development process involved data collection, preprocessing, training, and validation, using micro-diachronic, temporal and incremental learning methods to capture semantic variations over time. Preliminary results show variations in the stability of meanings for concepts such as "race," "gender," and "class." We also present SKINNER, an explainable AI (XAI) component that tracks specific linguistic contexts, contributing to the transparency of the results. We conclude that fully capturing "spaces of experience" requires more complex models and a broader data corpus. The next step in the project is to scale the data and use Transformer-based models for a more precise representation of historical concepts. This work is part of an interdisciplinary project aimed at contributing to a theoretically oriented digital history that integrates quantitative and qualitative approaches, combining scholarship and big data analysis.Resumen Este artículo explora la semántica de los tiempos históricos utilizando el procesamiento del lenguaje natural (PLN). Hemos desarrollado la serie de modelos Woke (Word Embedding and Knowledge Model), utilizando algoritmos de vectorización de palabras como Word2Vec, entrenados con un corpus de tesis y disertaciones de la Universidad XXXX (2003-2024). Los modelos Woke-HST y Woke-CFH fueron entrenados específicamente en Historia y Humanidades. El proceso de desarrollo involucró la recopilación de datos, el preprocesamiento, el entrenamiento y la validación, utilizando el aprendizaje incremental para capturar las variaciones semánticas a lo largo del tiempo. Los resultados preliminares muestran variaciones en la estabilidad de los significados de conceptos como "raza", "género" y "clase". También presentamos SKINNER, un componente de IA explicable (XAI) que rastrea contextos lingüísticos específicos, contribuyendo a la transparencia de los resultados. Concluimos que la captura completa de los "espacios de experiencia" requiere modelos más complejos y un corpus de datos más amplio. El siguiente paso del proyecto es escalar los datos y utilizar modelos basados en la arquitectura Transformer para una representación más precisa de los conceptos históricos. Este trabajo es parte de un proyecto interdisciplinar que busca contribuir a una historia digital teóricamente orientada que integre enfoques cuantitativos y cualitativos, combinando erudición y análisis de big data. Palabras clave: Historia conceptual, aprendizaje automático, semántica vectorialRésumé Cet article explore la sémantique des temps historiques en utilisant le traitement du langage naturel (NLP). Nous avons développé la série de modèles Woke (Word Embedding and Knowledge Model), en utilisant des algorithmes de vectorisation des mots comme Word2Vec, entraînés sur un corpus de thèses et mémoires de l'Université de XXXX (2003-2024). Les modèles Woke-HST et Woke-CFH ont été spécifiquement entraînés en histoire et en sciences humaines. Le processus de développement a impliqué la collecte de données, le prétraitement, l'entraînement et la validation, en utilisant l'apprentissage incrémental pour capturer les variations sémantiques au fil du temps. Les résultats préliminaires montrent des variations dans la stabilité des significations de concepts tels que « race », « genre » et « classe ». Nous présentons également SKINNER, un composant d'IA explicable (XAI) qui suit des contextes linguistiques spécifiques, contribuant à la transparence des résultats. Nous concluons que la capture complète des « espaces d'expérience » nécessite des modèles plus complexes et un corpus de données plus large. La prochaine étape du projet est de mettre à l'échelle les données et d'utiliser des modèles basés sur Transformer pour une représentation plus précise des concepts historiques. Ce travail fait partie d'un projet interdisciplinaire visant à contribuer à une histoire numérique théoriquement orientée qui intègre des approches quantitatives et qualitatives, combinant érudition et analyse de big data. Mots-clés : Histoire conceptuelle, apprentissage automatique, sémantique vectorielleRiassunto Questo articolo esplora la semantica dei tempi storici utilizzando l'Elaborazione del Linguaggio Naturale (NLP). Abbiamo sviluppato la serie di modelli Woke (Word Embedding and Knowledge Model), utilizzando algoritmi di vettorizzazione delle parole come Word2Vec, addestrati su un corpus di tesi e dissertazioni dell'Università di XXXX (2003-2024). I modelli Woke-HST e Woke-CFH sono stati specificamente addestrati in Storia e Scienze Umane. Il processo di sviluppo ha coinvolto la raccolta dei dati, il pre-processamento, l'addestramento e la validazione, utilizzando l'apprendimento incrementale per catturare le variazioni semantiche nel tempo. I risultati preliminari mostrano variazioni nella stabilità dei significati per concetti come "razza", "genere" e "classe". Presentiamo anche SKINNER, un componente di IA spiegabile (XAI) che traccia contesti linguistici specifici, contribuendo alla trasparenza dei risultati. Concludiamo che per catturare completamente gli "spazi di esperienza" sono necessari modelli più complessi e un corpus di dati più ampio. Il prossimo passo del progetto è scalare i dati e utilizzare modelli basati su Transformer per una rappresentazione più precisa dei concetti storici. Questo lavoro fa parte di un progetto interdisciplinare volto a contribuire a una storia digitale teoricamente orientata che integri approcci quantitativi e qualitativi, combinando erudizione e analisi di big data. Parole chiave: Storia concettuale, apprendimento automatico, semantica vettorialeEste artigo explora a semântica dos tempos históricos usando Processamento de Linguagem Natural (PLN). Desenvolvemos a família de modelos Woke (Word Embedding and Knowledge Model), utilizando algoritmos de vetorização de palavras como o Word2Vec, treinados em um corpus de teses e dissertações da Universidade Federal de Santa Catarina (2003-2024). Os modelos Woke-HST e Woke-CFH foram treinados especificamente em História e Ciências Humanas. Já os modelos Woke-UFSC foram expostos a 96,25% dos dados nativo digitais disponíveis no repositório de nossa universidade. O desenvolvimento envolveu coleta, pré-processamento, treinamento e validação dos dados, usando aprendizados micro-diacrônico, temporal e incremental para capturar variações semânticas ao longo do tempo. Os resultados preliminares mostram mudanças na estabilidade dos significados de conceitos como “raça”, “gênero” e “classe”. Apresentamos também SKINNER, um componente de IA explicável (XAI) que rastreia contextos linguísticos específicos, contribuindo para a transparência dos resultados. Concluímos que a captura completa de “espaços de experiência” requer modelos mais complexos e um corpus de dados mais amplo. O próximo passo do projeto é escalar os dados e usar modelos baseados na arquitetura Transformer para uma representação mais precisa dos conceitos históricos. Este trabalho é parte de um projeto interdisciplinar que busca contribuir para uma história digital teoricamente orientada que integre abordagens quantitativas e qualitativas, aliando erudição e análise de big data.Universidade Federal de Goiás2024-08-04info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfapplication/pdfhttps://revistas.ufg.br/teoria/article/view/7937010.5216/rth.v27i1.79370Revista de Teoria da História; Vol. 27 No. 1 (2024): História Digital: arquivo, memória e narrativa na Era do Big Data; 7 - 50Revista de Teoria da História; v. 27 n. 1 (2024): História Digital: arquivo, memória e narrativa na Era do Big Data; 7 - 502175-5892reponame:Revista de Teoria da Históriainstname:Universidade Federal de Goiás (UFG)instacron:UFGporhttps://revistas.ufg.br/teoria/article/view/79370/41261https://revistas.ufg.br/teoria/article/view/79370/41262Copyright (c) 2024 Revista de Teoria da Históriahttps://creativecommons.org/licenses/by-nc-nd/4.0info:eu-repo/semantics/openAccess Bonaldo, Rodrigo Bragio2024-08-12T20:00:19Zoai:ojs.revistas.ufg.br:article/79370Revistahttps://revistas.ufg.br/teoria/PUBhttps://revistas.ufg.br/teoria/oai\|\|revistateoriadahistoria@hotmail.com2175-58922175-5892opendoar:2024-08-12T20:00:19Revista de Teoria da História - Universidade Federal de Goiás (UFG)false
dc.title.none.fl_str_mv	Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten Words and tokens: Vector projection for the semantics of historical times Las palabras y los tokens: proyección vectorial para el estudio de la semántica de los tiempos históricos Les mots et les jetons: projection vectorielle pour l'étude de la sémantique des temps historiques Le parole e i token: proiezione vettoriale applicata allo studio della semantica dei tempi storici As palavras e os tokens: Projeção vetorial aplicada ao estudo da semântica dos tempos históricos
title	Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten
spellingShingle	Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten Bonaldo, Rodrigo Bragio Conceptual history machine learning vector semantics História conceitual aprendizado de máquina semântica vetorial
title_short	Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten
title_full	Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten
title_fullStr	Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten
title_full_unstemmed	Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten
title_sort	Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten
author	Bonaldo, Rodrigo Bragio
author_facet	Bonaldo, Rodrigo Bragio
author_role	author
dc.contributor.author.fl_str_mv	Bonaldo, Rodrigo Bragio
dc.subject.por.fl_str_mv	Conceptual history machine learning vector semantics História conceitual aprendizado de máquina semântica vetorial
topic	Conceptual history machine learning vector semantics História conceitual aprendizado de máquina semântica vetorial
description	Zusammenfassung Dieser Artikel untersucht die Semantik historischer Zeiten unter Verwendung der Verarbeitung natürlicher Sprache (NLP). Wir haben die Woke-Modellreihe (Word Embedding and Knowledge Model) entwickelt, die auf Wortvektorisierungsalgorithmen wie Word2Vec basiert und auf einem Korpus von Dissertationen und Abschlussarbeiten der Universität XXXX (2003-2024) trainiert wurde. Die Modelle Woke-HST und Woke-CFH wurden speziell in Geschichte und Geisteswissenschaften trainiert. Der Entwicklungsprozess umfasste Datenerfassung, Vorverarbeitung, Training und Validierung, wobei inkrementelles Lernen eingesetzt wurde, um semantische Variationen im Laufe der Zeit zu erfassen. Vorläufige Ergebnisse zeigen Variationen in der Stabilität der Bedeutungen von Konzepten wie "Rasse", "Geschlecht" und "Klasse". Wir präsentieren auch SKINNER, eine erklärbare KI (XAI)-Komponente, die spezifische linguistische Kontexte verfolgt und zur Transparenz der Ergebnisse beiträgt. Wir kommen zu dem Schluss, dass die vollständige Erfassung von "Erfahrungsräumen" komplexere Modelle und einen breiteren Datenkorpus erfordert. Der nächste Schritt des Projekts besteht darin, die Daten zu skalieren und Transformer-basierte Modelle zu verwenden, um eine genauere Darstellung historischer Konzepte zu erreichen. Diese Arbeit ist Teil eines interdisziplinären Projekts, das darauf abzielt, zu einer theoretisch orientierten digitalen Geschichtsschreibung beizutragen, die quantitative und qualitative Ansätze integriert und Gelehrsamkeit mit Big-Data-Analyse verbindet. Schlüsselwörter: Begriffsgeschichte, maschinelles Lernen, Vektorsemantik
publishDate	2024
dc.date.none.fl_str_mv	2024-08-04
dc.type.driver.fl_str_mv	info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion
format	article
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://revistas.ufg.br/teoria/article/view/79370 10.5216/rth.v27i1.79370
url	https://revistas.ufg.br/teoria/article/view/79370
identifier_str_mv	10.5216/rth.v27i1.79370
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	https://revistas.ufg.br/teoria/article/view/79370/41261 https://revistas.ufg.br/teoria/article/view/79370/41262
dc.rights.driver.fl_str_mv	Copyright (c) 2024 Revista de Teoria da História https://creativecommons.org/licenses/by-nc-nd/4.0 info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Copyright (c) 2024 Revista de Teoria da História https://creativecommons.org/licenses/by-nc-nd/4.0
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal de Goiás
publisher.none.fl_str_mv	Universidade Federal de Goiás
dc.source.none.fl_str_mv	Revista de Teoria da História; Vol. 27 No. 1 (2024): História Digital: arquivo, memória e narrativa na Era do Big Data; 7 - 50 Revista de Teoria da História; v. 27 n. 1 (2024): História Digital: arquivo, memória e narrativa na Era do Big Data; 7 - 50 2175-5892 reponame:Revista de Teoria da História instname:Universidade Federal de Goiás (UFG) instacron:UFG
instname_str	Universidade Federal de Goiás (UFG)
instacron_str	UFG
institution	UFG
reponame_str	Revista de Teoria da História
collection	Revista de Teoria da História
repository.name.fl_str_mv	Revista de Teoria da História - Universidade Federal de Goiás (UFG)
repository.mail.fl_str_mv	\|\|revistateoriadahistoria@hotmail.com
_version_	1809730282711941120

Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten

Registros relacionados