Methodological reflections on datasets and corpus linguistics: a preliminary analysis of legislative data

Detalhes bibliográficos
Autor(a) principal: Ferrari, Lúcia de Almeida
Data de Publicação: 2022
Outros Autores: Cunha, Evandro Landulfo Teixeira Paradela
Tipo de documento: Artigo
Idioma: por
Título da fonte: Domínios de Lingu@gem
Texto Completo: https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/64146
Resumo: Computational tools and methods are increasingly important for conducting research in the humanities. In particular, these tools are relevant for diachronic linguistic analysis. In this study, we present a discussion about the use of corpora and datasets in linguistics, highlighting some strengths and limitations of these resources. To illustrate the possibilities of using a dataset for linguistic research, a preliminary study employing a dataset of Brazilian legal norms is also presented.
id UFU-12_1c0464a880437ba170f477f0ed61f457
oai_identifier_str oai:ojs.www.seer.ufu.br:article/64146
network_acronym_str UFU-12
network_name_str Domínios de Lingu@gem
repository_id_str
spelling Methodological reflections on datasets and corpus linguistics: a preliminary analysis of legislative dataReflexões metodológicas sobre datasets e linguística de corpus: uma análise preliminar de dados legislativosProcessamento de textoDataset de normas jurídicasAnálise diacrônicaLinguagem e direitoText processingLegal norms datasetDiachronic analysisLanguage and lawComputational tools and methods are increasingly important for conducting research in the humanities. In particular, these tools are relevant for diachronic linguistic analysis. In this study, we present a discussion about the use of corpora and datasets in linguistics, highlighting some strengths and limitations of these resources. To illustrate the possibilities of using a dataset for linguistic research, a preliminary study employing a dataset of Brazilian legal norms is also presented.Ferramentas e métodos computacionais são, cada vez mais, importantes aliados para a realização de pesquisas no âmbito das humanidades. Em particular, o uso dessas ferramentas é relevante para a análise linguística diacrônica. Neste estudo, é apresentada uma discussão sobre o uso de corpora e datasets na linguística, destacando algumas potencialidades e limitações desses recursos. Para ilustrar as possibilidades de uso de um dataset para pesquisa linguística, apresenta-se, também, uma análise preliminar da Base de Normas Jurídicas Brasileiras.PP/UFU2022-09-12info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdftext/xmlhttps://seer.ufu.br/index.php/dominiosdelinguagem/article/view/6414610.14393/DL52-v16n4a2022-12Domínios de Lingu@gem; Vol. 16 No. 4 (2022): The computational treatment of Brazilian Portuguese; 1571-1607Domínios de Lingu@gem; Vol. 16 Núm. 4 (2022): El tratamiento computacional del portugués brasileño; 1571-1607Domínios de Lingu@gem; v. 16 n. 4 (2022): Tratamento Computacional do Português Brasileiro; 1571-16071980-5799reponame:Domínios de Lingu@geminstname:Universidade Federal de Uberlândia (UFU)instacron:UFUporhttps://seer.ufu.br/index.php/dominiosdelinguagem/article/view/64146/33952https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/64146/35237Copyright (c) 2022 Lúcia de Almeida Ferrari, Evandro Landulfo Teixeira Paradela Cunhahttp://creativecommons.org/licenses/by-nc-nd/4.0info:eu-repo/semantics/openAccessFerrari, Lúcia de AlmeidaCunha, Evandro Landulfo Teixeira Paradela2022-12-09T18:28:54Zoai:ojs.www.seer.ufu.br:article/64146Revistahttps://seer.ufu.br/index.php/dominiosdelinguagemPUBhttps://seer.ufu.br/index.php/dominiosdelinguagem/oairevistadominios@ileel.ufu.br||1980-57991980-5799opendoar:2022-12-09T18:28:54Domínios de Lingu@gem - Universidade Federal de Uberlândia (UFU)false
dc.title.none.fl_str_mv Methodological reflections on datasets and corpus linguistics: a preliminary analysis of legislative data
Reflexões metodológicas sobre datasets e linguística de corpus: uma análise preliminar de dados legislativos
title Methodological reflections on datasets and corpus linguistics: a preliminary analysis of legislative data
spellingShingle Methodological reflections on datasets and corpus linguistics: a preliminary analysis of legislative data
Ferrari, Lúcia de Almeida
Processamento de texto
Dataset de normas jurídicas
Análise diacrônica
Linguagem e direito
Text processing
Legal norms dataset
Diachronic analysis
Language and law
title_short Methodological reflections on datasets and corpus linguistics: a preliminary analysis of legislative data
title_full Methodological reflections on datasets and corpus linguistics: a preliminary analysis of legislative data
title_fullStr Methodological reflections on datasets and corpus linguistics: a preliminary analysis of legislative data
title_full_unstemmed Methodological reflections on datasets and corpus linguistics: a preliminary analysis of legislative data
title_sort Methodological reflections on datasets and corpus linguistics: a preliminary analysis of legislative data
author Ferrari, Lúcia de Almeida
author_facet Ferrari, Lúcia de Almeida
Cunha, Evandro Landulfo Teixeira Paradela
author_role author
author2 Cunha, Evandro Landulfo Teixeira Paradela
author2_role author
dc.contributor.author.fl_str_mv Ferrari, Lúcia de Almeida
Cunha, Evandro Landulfo Teixeira Paradela
dc.subject.por.fl_str_mv Processamento de texto
Dataset de normas jurídicas
Análise diacrônica
Linguagem e direito
Text processing
Legal norms dataset
Diachronic analysis
Language and law
topic Processamento de texto
Dataset de normas jurídicas
Análise diacrônica
Linguagem e direito
Text processing
Legal norms dataset
Diachronic analysis
Language and law
description Computational tools and methods are increasingly important for conducting research in the humanities. In particular, these tools are relevant for diachronic linguistic analysis. In this study, we present a discussion about the use of corpora and datasets in linguistics, highlighting some strengths and limitations of these resources. To illustrate the possibilities of using a dataset for linguistic research, a preliminary study employing a dataset of Brazilian legal norms is also presented.
publishDate 2022
dc.date.none.fl_str_mv 2022-09-12
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/64146
10.14393/DL52-v16n4a2022-12
url https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/64146
identifier_str_mv 10.14393/DL52-v16n4a2022-12
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/64146/33952
https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/64146/35237
dc.rights.driver.fl_str_mv Copyright (c) 2022 Lúcia de Almeida Ferrari, Evandro Landulfo Teixeira Paradela Cunha
http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Copyright (c) 2022 Lúcia de Almeida Ferrari, Evandro Landulfo Teixeira Paradela Cunha
http://creativecommons.org/licenses/by-nc-nd/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
text/xml
dc.publisher.none.fl_str_mv PP/UFU
publisher.none.fl_str_mv PP/UFU
dc.source.none.fl_str_mv Domínios de Lingu@gem; Vol. 16 No. 4 (2022): The computational treatment of Brazilian Portuguese; 1571-1607
Domínios de Lingu@gem; Vol. 16 Núm. 4 (2022): El tratamiento computacional del portugués brasileño; 1571-1607
Domínios de Lingu@gem; v. 16 n. 4 (2022): Tratamento Computacional do Português Brasileiro; 1571-1607
1980-5799
reponame:Domínios de Lingu@gem
instname:Universidade Federal de Uberlândia (UFU)
instacron:UFU
instname_str Universidade Federal de Uberlândia (UFU)
instacron_str UFU
institution UFU
reponame_str Domínios de Lingu@gem
collection Domínios de Lingu@gem
repository.name.fl_str_mv Domínios de Lingu@gem - Universidade Federal de Uberlândia (UFU)
repository.mail.fl_str_mv revistadominios@ileel.ufu.br||
_version_ 1797067717722767360