Transcription and data annotation using ELAN and LancsBox

Detalhes bibliográficos
Autor(a) principal: Sousa, Marta Deysiane Alves Faria
Data de Publicação: 2022
Outros Autores: Souza, Victor Renê Andrade
Tipo de documento: Artigo
Idioma: por
Título da fonte: Domínios de Lingu@gem
Texto Completo: https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/62447
Resumo: This study aims at demonstrating how the transcription tool ELAN 5.9 (2020) and the corpus analysis LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020) have been contributing to transcribe sociolinguistics interviews made at Grupo de Pesquisa em Linguagem, Interação e Sociedade (GELINS) as well as to the automatically extract variable linguistic phenomena. In order to do that, norms through which the interviews are transcribed, ways of using ELAN 5.9 (2020) for transcription, and the way to morphologically tag data and to search speech data for linguistic variable phenomena using LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020) are presented. The two tools have been useful to an aligned transcription, a morphological annotation, and an automated search on large amounts of speech data. This text contributes to the exploration of tools that enables a faster and more accurate transcription of speech data as well as more automated searches on large amounts of data.
id UFU-12_b90151029c5776faed03d07460f714a3
oai_identifier_str oai:ojs.www.seer.ufu.br:article/62447
network_acronym_str UFU-12
network_name_str Domínios de Lingu@gem
repository_id_str
spelling Transcription and data annotation using ELAN and LancsBoxTranscrição e anotação de dados linguísticos usando as ferramentas ELAN e LancsBoxDados oraisSociolinguísticaELANLancsBoxBancos de dados linguísticosSpeech dataSociolinguisticsELANLancsBoxLinguistic DatabasesThis study aims at demonstrating how the transcription tool ELAN 5.9 (2020) and the corpus analysis LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020) have been contributing to transcribe sociolinguistics interviews made at Grupo de Pesquisa em Linguagem, Interação e Sociedade (GELINS) as well as to the automatically extract variable linguistic phenomena. In order to do that, norms through which the interviews are transcribed, ways of using ELAN 5.9 (2020) for transcription, and the way to morphologically tag data and to search speech data for linguistic variable phenomena using LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020) are presented. The two tools have been useful to an aligned transcription, a morphological annotation, and an automated search on large amounts of speech data. This text contributes to the exploration of tools that enables a faster and more accurate transcription of speech data as well as more automated searches on large amounts of data.Objetiva-se com este trabalho demonstrar como as ferramentas de transcrição de dados ELAN 5.9 (2020) e de análise de corpora LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020) têm contribuído para a transcrição de entrevistas sociolinguísticas realizadas no escopo do Grupo de Estudos em Linguagem, Interação e Sociedade (GELINS) da Universidade Federal de Sergipe, bem como para extração automatizada de fenômenos linguísticos variáveis. Para tanto, apresenta-se as normas pelas quais as entrevistas são transcritas, formas de utilizar o ELAN 5.9 (2020) para transcrição, e por fim, a maneira de fazer a etiquetagem morfológica dos dados e buscas por fenômenos variáveis nos dados de fala utilizando-se a ferramenta LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020). As duas ferramentas têm se mostrado eficientes para uma transcrição alinhada com áudio, para anotação morfológica e buscas automáticas em grandes volumes de textos orais.  Este texto contribui para exploração de ferramentas que permitam uma transcrição mais rápida e acurada de dados orais bem como buscas mais automatizadas de grandes volumes de dados.PP/UFU2022-07-18info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdftext/xmlhttps://seer.ufu.br/index.php/dominiosdelinguagem/article/view/6244710.14393/DL51-v16n3a2022-10Domínios de Lingu@gem; Vol. 16 No. 3 (2022): Número Atemático; 1173-1202Domínios de Lingu@gem; Vol. 16 Núm. 3 (2022): Número Atemático; 1173-1202Domínios de Lingu@gem; v. 16 n. 3 (2022): Número Atemático; 1173-12021980-5799reponame:Domínios de Lingu@geminstname:Universidade Federal de Uberlândia (UFU)instacron:UFUporhttps://seer.ufu.br/index.php/dominiosdelinguagem/article/view/62447/34314https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/62447/35224Copyright (c) 2022 Marta Deysiane Alves Faria Sousa, Victor Renê Andrade Souzahttp://creativecommons.org/licenses/by-nc-nd/4.0info:eu-repo/semantics/openAccessSousa, Marta Deysiane Alves Faria Souza, Victor Renê Andrade2022-12-09T14:26:16Zoai:ojs.www.seer.ufu.br:article/62447Revistahttps://seer.ufu.br/index.php/dominiosdelinguagemPUBhttps://seer.ufu.br/index.php/dominiosdelinguagem/oairevistadominios@ileel.ufu.br||1980-57991980-5799opendoar:2022-12-09T14:26:16Domínios de Lingu@gem - Universidade Federal de Uberlândia (UFU)false
dc.title.none.fl_str_mv Transcription and data annotation using ELAN and LancsBox
Transcrição e anotação de dados linguísticos usando as ferramentas ELAN e LancsBox
title Transcription and data annotation using ELAN and LancsBox
spellingShingle Transcription and data annotation using ELAN and LancsBox
Sousa, Marta Deysiane Alves Faria
Dados orais
Sociolinguística
ELAN
LancsBox
Bancos de dados linguísticos
Speech data
Sociolinguistics
ELAN
LancsBox
Linguistic Databases
title_short Transcription and data annotation using ELAN and LancsBox
title_full Transcription and data annotation using ELAN and LancsBox
title_fullStr Transcription and data annotation using ELAN and LancsBox
title_full_unstemmed Transcription and data annotation using ELAN and LancsBox
title_sort Transcription and data annotation using ELAN and LancsBox
author Sousa, Marta Deysiane Alves Faria
author_facet Sousa, Marta Deysiane Alves Faria
Souza, Victor Renê Andrade
author_role author
author2 Souza, Victor Renê Andrade
author2_role author
dc.contributor.author.fl_str_mv Sousa, Marta Deysiane Alves Faria
Souza, Victor Renê Andrade
dc.subject.por.fl_str_mv Dados orais
Sociolinguística
ELAN
LancsBox
Bancos de dados linguísticos
Speech data
Sociolinguistics
ELAN
LancsBox
Linguistic Databases
topic Dados orais
Sociolinguística
ELAN
LancsBox
Bancos de dados linguísticos
Speech data
Sociolinguistics
ELAN
LancsBox
Linguistic Databases
description This study aims at demonstrating how the transcription tool ELAN 5.9 (2020) and the corpus analysis LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020) have been contributing to transcribe sociolinguistics interviews made at Grupo de Pesquisa em Linguagem, Interação e Sociedade (GELINS) as well as to the automatically extract variable linguistic phenomena. In order to do that, norms through which the interviews are transcribed, ways of using ELAN 5.9 (2020) for transcription, and the way to morphologically tag data and to search speech data for linguistic variable phenomena using LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020) are presented. The two tools have been useful to an aligned transcription, a morphological annotation, and an automated search on large amounts of speech data. This text contributes to the exploration of tools that enables a faster and more accurate transcription of speech data as well as more automated searches on large amounts of data.
publishDate 2022
dc.date.none.fl_str_mv 2022-07-18
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/62447
10.14393/DL51-v16n3a2022-10
url https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/62447
identifier_str_mv 10.14393/DL51-v16n3a2022-10
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/62447/34314
https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/62447/35224
dc.rights.driver.fl_str_mv Copyright (c) 2022 Marta Deysiane Alves Faria Sousa, Victor Renê Andrade Souza
http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Copyright (c) 2022 Marta Deysiane Alves Faria Sousa, Victor Renê Andrade Souza
http://creativecommons.org/licenses/by-nc-nd/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
text/xml
dc.publisher.none.fl_str_mv PP/UFU
publisher.none.fl_str_mv PP/UFU
dc.source.none.fl_str_mv Domínios de Lingu@gem; Vol. 16 No. 3 (2022): Número Atemático; 1173-1202
Domínios de Lingu@gem; Vol. 16 Núm. 3 (2022): Número Atemático; 1173-1202
Domínios de Lingu@gem; v. 16 n. 3 (2022): Número Atemático; 1173-1202
1980-5799
reponame:Domínios de Lingu@gem
instname:Universidade Federal de Uberlândia (UFU)
instacron:UFU
instname_str Universidade Federal de Uberlândia (UFU)
instacron_str UFU
institution UFU
reponame_str Domínios de Lingu@gem
collection Domínios de Lingu@gem
repository.name.fl_str_mv Domínios de Lingu@gem - Universidade Federal de Uberlândia (UFU)
repository.mail.fl_str_mv revistadominios@ileel.ufu.br||
_version_ 1797067717682921472