JSON uma alternativa para corpus linguístico anotado em padrão XML

Detalhes bibliográficos
Autor(a) principal: Costa, Aline Silva
Data de Publicação: 2019
Outros Autores: Costa, Bruno Silvério, Damaceno, Romenito Pereira, Namiuti, Cristiane, Santos, Jorge Viana
Tipo de documento: Artigo
Idioma: por
Título da fonte: Revista Binacional Brasil-Argentina
Texto Completo: https://periodicos2.uesb.br/index.php/rbba/article/view/5590
Resumo: Resumo Para as investigações em Linguística nas Humanidades Digitais, sobretudo para a formulação de hipóteses sobre gramáticas nos estudos de Linguística Histórica, necessita-se de um grande volume de dados, fato que intensificou a construção e implementação de corpora anotados que crescem em tamanho exigindo maior grau de escalabilidade. Neste artigo discute-se a viabilidade técnica de uma solução computacional alternativa à linguagem XML (eXtensible Markup Language) para corpora linguísticos anotados. A linguagem XML tem sido utilizada em vários corpora que se baseiam no Corpus anotado do português histórico Tycho Brahe (CTB), como o Corpus de Documentos Oitocentistas de Vitória da Conquista (DOViC) e o Corpus Eletrônico de Documentos Históricos do Sertão (CE-DOHS). A linguagem XML pode apresentar problemas de performance para grande volume de dados, além de alto custo de memória. O crescimento de bancos de dados não relacionais, com características de alta flexibilidade e performance, associado aos potenciais problemas de desempenho da anotação XML, motivou uma pesquisa de viabilidade técnica de uma solução computacional alternativa para representação e armazenamento atual dos textos do corpus DOViC em um banco de dados NoSQL no formato JSON (JavaScript Object Notation) (MONGODB, 2008). A pesquisa aqui apresentada verifica a viabilidade da representação,compara a performance obtida em buscas morfossintáticas feitas na anotação proposta (Banco de dados NoSQL e formato JSON) com a anotação e armazenamento atual do corpus DOViC (Sistema de arquivos e formato XML), e faz uma análise de outros aspectos da proposta. Os resultados obtidos no tocante à performance da proposta JSON indicam viabilidade técnica dessa vertente computacional.. Não obstante, para além da performance, o XML apresenta maiores vantagens de interoperabilidade por ser amplamente aceita como padrão para anotação de corpora. Palavras-chave: Corpus anotado. JSON. XML.   Resumen Para las investigaciones en Lingüística en Humanidades Digitales, especialmente para la formulación de hipótesis sobre las gramáticas en los estudios de Lingüística Histórica, se requiere un gran volumen de datos, un hecho que intensificó la construcción e implementación de los corpora anotados que crecen en tamaño y requieren mayor escalabilidad. Este documento analiza la viabilidad técnica de una solución computacional alternativa al XML (eXtensible Markup Language) para corpora lingüísticos anotados. El lenguaje XML se ha utilizado en muchos corpora que se basan en el corpus anotado del portugués histórico Tycho Brahe (CTB), como el Corpus de Documentos Oitocentistas de Vitória da Conquista (DOViC) y el Corpus Eletrônico de Documentos Históricos do Sertão (CE-DOHS). El lenguaje XML puede presentar problemas de rendimiento para grandes datos, así como un alto costo de memoria. El crecimiento de las bases de datos no relacionales, con alta flexibilidad y características de rendimiento, asociadas con posibles problemas de rendimiento de la anotación XML, motivó un estudio de viabilidad técnica de una solución computacional alternativa para la representación y el almacenamiento actual de textos de corpus DOViC. Base de datos NoSQL en formato JSON (JavaScript Object Notation) (MONGODB, 2008). La investigación presentada aquí verifica la viabilidad de la representación, compara el rendimiento obtenido en las búsquedas morfosintácticas realizadas en la propuesta (base de datos NoSQL y formato JSON) con la actual anotación y almacenamiento del corpus DOViC (sistema de archivos y formato XML), y hace un análisis de otros aspectos de la propuesta. Los resultados obtenidos con respecto al rendimiento de la propuesta JSON indican la viabilidad técnica de este aspecto computacional. Además del rendimiento, XML tiene importantes ventajas de interoperabilidad, ya que es ampliamente aceptado como el estándar para la anotación de corpus. Palabras clave: Corpus anotado. JSON. XML.
id UESB-6_715e9400422993cc39a5a51e73126587
oai_identifier_str oai:periodicos.periodicos2.uesb.br:article/5590
network_acronym_str UESB-6
network_name_str Revista Binacional Brasil-Argentina
repository_id_str
spelling JSON uma alternativa para corpus linguístico anotado em padrão XMLCorpus anotado. JSON. XMLResumo Para as investigações em Linguística nas Humanidades Digitais, sobretudo para a formulação de hipóteses sobre gramáticas nos estudos de Linguística Histórica, necessita-se de um grande volume de dados, fato que intensificou a construção e implementação de corpora anotados que crescem em tamanho exigindo maior grau de escalabilidade. Neste artigo discute-se a viabilidade técnica de uma solução computacional alternativa à linguagem XML (eXtensible Markup Language) para corpora linguísticos anotados. A linguagem XML tem sido utilizada em vários corpora que se baseiam no Corpus anotado do português histórico Tycho Brahe (CTB), como o Corpus de Documentos Oitocentistas de Vitória da Conquista (DOViC) e o Corpus Eletrônico de Documentos Históricos do Sertão (CE-DOHS). A linguagem XML pode apresentar problemas de performance para grande volume de dados, além de alto custo de memória. O crescimento de bancos de dados não relacionais, com características de alta flexibilidade e performance, associado aos potenciais problemas de desempenho da anotação XML, motivou uma pesquisa de viabilidade técnica de uma solução computacional alternativa para representação e armazenamento atual dos textos do corpus DOViC em um banco de dados NoSQL no formato JSON (JavaScript Object Notation) (MONGODB, 2008). A pesquisa aqui apresentada verifica a viabilidade da representação,compara a performance obtida em buscas morfossintáticas feitas na anotação proposta (Banco de dados NoSQL e formato JSON) com a anotação e armazenamento atual do corpus DOViC (Sistema de arquivos e formato XML), e faz uma análise de outros aspectos da proposta. Os resultados obtidos no tocante à performance da proposta JSON indicam viabilidade técnica dessa vertente computacional.. Não obstante, para além da performance, o XML apresenta maiores vantagens de interoperabilidade por ser amplamente aceita como padrão para anotação de corpora. Palavras-chave: Corpus anotado. JSON. XML.   Resumen Para las investigaciones en Lingüística en Humanidades Digitales, especialmente para la formulación de hipótesis sobre las gramáticas en los estudios de Lingüística Histórica, se requiere un gran volumen de datos, un hecho que intensificó la construcción e implementación de los corpora anotados que crecen en tamaño y requieren mayor escalabilidad. Este documento analiza la viabilidad técnica de una solución computacional alternativa al XML (eXtensible Markup Language) para corpora lingüísticos anotados. El lenguaje XML se ha utilizado en muchos corpora que se basan en el corpus anotado del portugués histórico Tycho Brahe (CTB), como el Corpus de Documentos Oitocentistas de Vitória da Conquista (DOViC) y el Corpus Eletrônico de Documentos Históricos do Sertão (CE-DOHS). El lenguaje XML puede presentar problemas de rendimiento para grandes datos, así como un alto costo de memoria. El crecimiento de las bases de datos no relacionales, con alta flexibilidad y características de rendimiento, asociadas con posibles problemas de rendimiento de la anotación XML, motivó un estudio de viabilidad técnica de una solución computacional alternativa para la representación y el almacenamiento actual de textos de corpus DOViC. Base de datos NoSQL en formato JSON (JavaScript Object Notation) (MONGODB, 2008). La investigación presentada aquí verifica la viabilidad de la representación, compara el rendimiento obtenido en las búsquedas morfosintácticas realizadas en la propuesta (base de datos NoSQL y formato JSON) con la actual anotación y almacenamiento del corpus DOViC (sistema de archivos y formato XML), y hace un análisis de otros aspectos de la propuesta. Los resultados obtenidos con respecto al rendimiento de la propuesta JSON indican la viabilidad técnica de este aspecto computacional. Además del rendimiento, XML tiene importantes ventajas de interoperabilidad, ya que es ampliamente aceptado como el estándar para la anotación de corpus. Palabras clave: Corpus anotado. JSON. XML.Edições UESB2019-07-31info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://periodicos2.uesb.br/index.php/rbba/article/view/559010.22481/rbba.v8i1.5590Revista Binacional Brasil-Argentina: Dialogue between the sciences; Vol. 8 No. 1 (2019): Arquivos, acervos e corpus documentais físicos e digitais: ciência, tecnologia e sociedade; 223-247Revista Binacional Brasil-Argentina: Diálogo entre as ciências; v. 8 n. 1 (2019): Arquivos, acervos e corpus documentais físicos e digitais: ciência, tecnologia e sociedade; 223-247Revista Binacional Brasil-Argentina: Diálogo entre las ciencias; Vol. 8 Núm. 1 (2019): Arquivos, acervos e corpus documentais físicos e digitais: ciência, tecnologia e sociedade; 223-2472316-1205reponame:Revista Binacional Brasil-Argentinainstname:Universidade Estadual do Sudoeste da Bahia (UESB)instacron:UESBporhttps://periodicos2.uesb.br/index.php/rbba/article/view/5590/4220Copyright (c) 2019 Revista Binacional Brasil-Argentina: Diálogo entre as ciênciasinfo:eu-repo/semantics/openAccessCosta, Aline SilvaCosta, Bruno SilvérioDamaceno, Romenito PereiraNamiuti, CristianeSantos, Jorge Viana2022-05-31T15:17:17Zoai:periodicos.periodicos2.uesb.br:article/5590Revistahttps://periodicos2.uesb.br/index.php/rbba/PUBhttps://periodicos2.uesb.br/index.php/rbba/oairbba@uesb.edu.br||2316-12052316-1205opendoar:2022-05-31T15:17:17Revista Binacional Brasil-Argentina - Universidade Estadual do Sudoeste da Bahia (UESB)false
dc.title.none.fl_str_mv JSON uma alternativa para corpus linguístico anotado em padrão XML
title JSON uma alternativa para corpus linguístico anotado em padrão XML
spellingShingle JSON uma alternativa para corpus linguístico anotado em padrão XML
Costa, Aline Silva
Corpus anotado. JSON. XML
title_short JSON uma alternativa para corpus linguístico anotado em padrão XML
title_full JSON uma alternativa para corpus linguístico anotado em padrão XML
title_fullStr JSON uma alternativa para corpus linguístico anotado em padrão XML
title_full_unstemmed JSON uma alternativa para corpus linguístico anotado em padrão XML
title_sort JSON uma alternativa para corpus linguístico anotado em padrão XML
author Costa, Aline Silva
author_facet Costa, Aline Silva
Costa, Bruno Silvério
Damaceno, Romenito Pereira
Namiuti, Cristiane
Santos, Jorge Viana
author_role author
author2 Costa, Bruno Silvério
Damaceno, Romenito Pereira
Namiuti, Cristiane
Santos, Jorge Viana
author2_role author
author
author
author
dc.contributor.author.fl_str_mv Costa, Aline Silva
Costa, Bruno Silvério
Damaceno, Romenito Pereira
Namiuti, Cristiane
Santos, Jorge Viana
dc.subject.por.fl_str_mv Corpus anotado. JSON. XML
topic Corpus anotado. JSON. XML
description Resumo Para as investigações em Linguística nas Humanidades Digitais, sobretudo para a formulação de hipóteses sobre gramáticas nos estudos de Linguística Histórica, necessita-se de um grande volume de dados, fato que intensificou a construção e implementação de corpora anotados que crescem em tamanho exigindo maior grau de escalabilidade. Neste artigo discute-se a viabilidade técnica de uma solução computacional alternativa à linguagem XML (eXtensible Markup Language) para corpora linguísticos anotados. A linguagem XML tem sido utilizada em vários corpora que se baseiam no Corpus anotado do português histórico Tycho Brahe (CTB), como o Corpus de Documentos Oitocentistas de Vitória da Conquista (DOViC) e o Corpus Eletrônico de Documentos Históricos do Sertão (CE-DOHS). A linguagem XML pode apresentar problemas de performance para grande volume de dados, além de alto custo de memória. O crescimento de bancos de dados não relacionais, com características de alta flexibilidade e performance, associado aos potenciais problemas de desempenho da anotação XML, motivou uma pesquisa de viabilidade técnica de uma solução computacional alternativa para representação e armazenamento atual dos textos do corpus DOViC em um banco de dados NoSQL no formato JSON (JavaScript Object Notation) (MONGODB, 2008). A pesquisa aqui apresentada verifica a viabilidade da representação,compara a performance obtida em buscas morfossintáticas feitas na anotação proposta (Banco de dados NoSQL e formato JSON) com a anotação e armazenamento atual do corpus DOViC (Sistema de arquivos e formato XML), e faz uma análise de outros aspectos da proposta. Os resultados obtidos no tocante à performance da proposta JSON indicam viabilidade técnica dessa vertente computacional.. Não obstante, para além da performance, o XML apresenta maiores vantagens de interoperabilidade por ser amplamente aceita como padrão para anotação de corpora. Palavras-chave: Corpus anotado. JSON. XML.   Resumen Para las investigaciones en Lingüística en Humanidades Digitales, especialmente para la formulación de hipótesis sobre las gramáticas en los estudios de Lingüística Histórica, se requiere un gran volumen de datos, un hecho que intensificó la construcción e implementación de los corpora anotados que crecen en tamaño y requieren mayor escalabilidad. Este documento analiza la viabilidad técnica de una solución computacional alternativa al XML (eXtensible Markup Language) para corpora lingüísticos anotados. El lenguaje XML se ha utilizado en muchos corpora que se basan en el corpus anotado del portugués histórico Tycho Brahe (CTB), como el Corpus de Documentos Oitocentistas de Vitória da Conquista (DOViC) y el Corpus Eletrônico de Documentos Históricos do Sertão (CE-DOHS). El lenguaje XML puede presentar problemas de rendimiento para grandes datos, así como un alto costo de memoria. El crecimiento de las bases de datos no relacionales, con alta flexibilidad y características de rendimiento, asociadas con posibles problemas de rendimiento de la anotación XML, motivó un estudio de viabilidad técnica de una solución computacional alternativa para la representación y el almacenamiento actual de textos de corpus DOViC. Base de datos NoSQL en formato JSON (JavaScript Object Notation) (MONGODB, 2008). La investigación presentada aquí verifica la viabilidad de la representación, compara el rendimiento obtenido en las búsquedas morfosintácticas realizadas en la propuesta (base de datos NoSQL y formato JSON) con la actual anotación y almacenamiento del corpus DOViC (sistema de archivos y formato XML), y hace un análisis de otros aspectos de la propuesta. Los resultados obtenidos con respecto al rendimiento de la propuesta JSON indican la viabilidad técnica de este aspecto computacional. Además del rendimiento, XML tiene importantes ventajas de interoperabilidad, ya que es ampliamente aceptado como el estándar para la anotación de corpus. Palabras clave: Corpus anotado. JSON. XML.
publishDate 2019
dc.date.none.fl_str_mv 2019-07-31
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://periodicos2.uesb.br/index.php/rbba/article/view/5590
10.22481/rbba.v8i1.5590
url https://periodicos2.uesb.br/index.php/rbba/article/view/5590
identifier_str_mv 10.22481/rbba.v8i1.5590
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://periodicos2.uesb.br/index.php/rbba/article/view/5590/4220
dc.rights.driver.fl_str_mv Copyright (c) 2019 Revista Binacional Brasil-Argentina: Diálogo entre as ciências
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Copyright (c) 2019 Revista Binacional Brasil-Argentina: Diálogo entre as ciências
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Edições UESB
publisher.none.fl_str_mv Edições UESB
dc.source.none.fl_str_mv Revista Binacional Brasil-Argentina: Dialogue between the sciences; Vol. 8 No. 1 (2019): Arquivos, acervos e corpus documentais físicos e digitais: ciência, tecnologia e sociedade; 223-247
Revista Binacional Brasil-Argentina: Diálogo entre as ciências; v. 8 n. 1 (2019): Arquivos, acervos e corpus documentais físicos e digitais: ciência, tecnologia e sociedade; 223-247
Revista Binacional Brasil-Argentina: Diálogo entre las ciencias; Vol. 8 Núm. 1 (2019): Arquivos, acervos e corpus documentais físicos e digitais: ciência, tecnologia e sociedade; 223-247
2316-1205
reponame:Revista Binacional Brasil-Argentina
instname:Universidade Estadual do Sudoeste da Bahia (UESB)
instacron:UESB
instname_str Universidade Estadual do Sudoeste da Bahia (UESB)
instacron_str UESB
institution UESB
reponame_str Revista Binacional Brasil-Argentina
collection Revista Binacional Brasil-Argentina
repository.name.fl_str_mv Revista Binacional Brasil-Argentina - Universidade Estadual do Sudoeste da Bahia (UESB)
repository.mail.fl_str_mv rbba@uesb.edu.br||
_version_ 1797220470236381184