Transcription and data annotation using ELAN and LancsBox
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Domínios de Lingu@gem |
Texto Completo: | https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/62447 |
Resumo: | This study aims at demonstrating how the transcription tool ELAN 5.9 (2020) and the corpus analysis LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020) have been contributing to transcribe sociolinguistics interviews made at Grupo de Pesquisa em Linguagem, Interação e Sociedade (GELINS) as well as to the automatically extract variable linguistic phenomena. In order to do that, norms through which the interviews are transcribed, ways of using ELAN 5.9 (2020) for transcription, and the way to morphologically tag data and to search speech data for linguistic variable phenomena using LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020) are presented. The two tools have been useful to an aligned transcription, a morphological annotation, and an automated search on large amounts of speech data. This text contributes to the exploration of tools that enables a faster and more accurate transcription of speech data as well as more automated searches on large amounts of data. |
id |
UFU-12_b90151029c5776faed03d07460f714a3 |
---|---|
oai_identifier_str |
oai:ojs.www.seer.ufu.br:article/62447 |
network_acronym_str |
UFU-12 |
network_name_str |
Domínios de Lingu@gem |
repository_id_str |
|
spelling |
Transcription and data annotation using ELAN and LancsBoxTranscrição e anotação de dados linguísticos usando as ferramentas ELAN e LancsBoxDados oraisSociolinguísticaELANLancsBoxBancos de dados linguísticosSpeech dataSociolinguisticsELANLancsBoxLinguistic DatabasesThis study aims at demonstrating how the transcription tool ELAN 5.9 (2020) and the corpus analysis LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020) have been contributing to transcribe sociolinguistics interviews made at Grupo de Pesquisa em Linguagem, Interação e Sociedade (GELINS) as well as to the automatically extract variable linguistic phenomena. In order to do that, norms through which the interviews are transcribed, ways of using ELAN 5.9 (2020) for transcription, and the way to morphologically tag data and to search speech data for linguistic variable phenomena using LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020) are presented. The two tools have been useful to an aligned transcription, a morphological annotation, and an automated search on large amounts of speech data. This text contributes to the exploration of tools that enables a faster and more accurate transcription of speech data as well as more automated searches on large amounts of data.Objetiva-se com este trabalho demonstrar como as ferramentas de transcrição de dados ELAN 5.9 (2020) e de análise de corpora LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020) têm contribuído para a transcrição de entrevistas sociolinguísticas realizadas no escopo do Grupo de Estudos em Linguagem, Interação e Sociedade (GELINS) da Universidade Federal de Sergipe, bem como para extração automatizada de fenômenos linguísticos variáveis. Para tanto, apresenta-se as normas pelas quais as entrevistas são transcritas, formas de utilizar o ELAN 5.9 (2020) para transcrição, e por fim, a maneira de fazer a etiquetagem morfológica dos dados e buscas por fenômenos variáveis nos dados de fala utilizando-se a ferramenta LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020). As duas ferramentas têm se mostrado eficientes para uma transcrição alinhada com áudio, para anotação morfológica e buscas automáticas em grandes volumes de textos orais. Este texto contribui para exploração de ferramentas que permitam uma transcrição mais rápida e acurada de dados orais bem como buscas mais automatizadas de grandes volumes de dados.PP/UFU2022-07-18info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdftext/xmlhttps://seer.ufu.br/index.php/dominiosdelinguagem/article/view/6244710.14393/DL51-v16n3a2022-10Domínios de Lingu@gem; Vol. 16 No. 3 (2022): Número Atemático; 1173-1202Domínios de Lingu@gem; Vol. 16 Núm. 3 (2022): Número Atemático; 1173-1202Domínios de Lingu@gem; v. 16 n. 3 (2022): Número Atemático; 1173-12021980-5799reponame:Domínios de Lingu@geminstname:Universidade Federal de Uberlândia (UFU)instacron:UFUporhttps://seer.ufu.br/index.php/dominiosdelinguagem/article/view/62447/34314https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/62447/35224Copyright (c) 2022 Marta Deysiane Alves Faria Sousa, Victor Renê Andrade Souzahttp://creativecommons.org/licenses/by-nc-nd/4.0info:eu-repo/semantics/openAccessSousa, Marta Deysiane Alves Faria Souza, Victor Renê Andrade2022-12-09T14:26:16Zoai:ojs.www.seer.ufu.br:article/62447Revistahttps://seer.ufu.br/index.php/dominiosdelinguagemPUBhttps://seer.ufu.br/index.php/dominiosdelinguagem/oairevistadominios@ileel.ufu.br||1980-57991980-5799opendoar:2022-12-09T14:26:16Domínios de Lingu@gem - Universidade Federal de Uberlândia (UFU)false |
dc.title.none.fl_str_mv |
Transcription and data annotation using ELAN and LancsBox Transcrição e anotação de dados linguísticos usando as ferramentas ELAN e LancsBox |
title |
Transcription and data annotation using ELAN and LancsBox |
spellingShingle |
Transcription and data annotation using ELAN and LancsBox Sousa, Marta Deysiane Alves Faria Dados orais Sociolinguística ELAN LancsBox Bancos de dados linguísticos Speech data Sociolinguistics ELAN LancsBox Linguistic Databases |
title_short |
Transcription and data annotation using ELAN and LancsBox |
title_full |
Transcription and data annotation using ELAN and LancsBox |
title_fullStr |
Transcription and data annotation using ELAN and LancsBox |
title_full_unstemmed |
Transcription and data annotation using ELAN and LancsBox |
title_sort |
Transcription and data annotation using ELAN and LancsBox |
author |
Sousa, Marta Deysiane Alves Faria |
author_facet |
Sousa, Marta Deysiane Alves Faria Souza, Victor Renê Andrade |
author_role |
author |
author2 |
Souza, Victor Renê Andrade |
author2_role |
author |
dc.contributor.author.fl_str_mv |
Sousa, Marta Deysiane Alves Faria Souza, Victor Renê Andrade |
dc.subject.por.fl_str_mv |
Dados orais Sociolinguística ELAN LancsBox Bancos de dados linguísticos Speech data Sociolinguistics ELAN LancsBox Linguistic Databases |
topic |
Dados orais Sociolinguística ELAN LancsBox Bancos de dados linguísticos Speech data Sociolinguistics ELAN LancsBox Linguistic Databases |
description |
This study aims at demonstrating how the transcription tool ELAN 5.9 (2020) and the corpus analysis LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020) have been contributing to transcribe sociolinguistics interviews made at Grupo de Pesquisa em Linguagem, Interação e Sociedade (GELINS) as well as to the automatically extract variable linguistic phenomena. In order to do that, norms through which the interviews are transcribed, ways of using ELAN 5.9 (2020) for transcription, and the way to morphologically tag data and to search speech data for linguistic variable phenomena using LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020) are presented. The two tools have been useful to an aligned transcription, a morphological annotation, and an automated search on large amounts of speech data. This text contributes to the exploration of tools that enables a faster and more accurate transcription of speech data as well as more automated searches on large amounts of data. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-07-18 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/62447 10.14393/DL51-v16n3a2022-10 |
url |
https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/62447 |
identifier_str_mv |
10.14393/DL51-v16n3a2022-10 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/62447/34314 https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/62447/35224 |
dc.rights.driver.fl_str_mv |
Copyright (c) 2022 Marta Deysiane Alves Faria Sousa, Victor Renê Andrade Souza http://creativecommons.org/licenses/by-nc-nd/4.0 info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Copyright (c) 2022 Marta Deysiane Alves Faria Sousa, Victor Renê Andrade Souza http://creativecommons.org/licenses/by-nc-nd/4.0 |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf text/xml |
dc.publisher.none.fl_str_mv |
PP/UFU |
publisher.none.fl_str_mv |
PP/UFU |
dc.source.none.fl_str_mv |
Domínios de Lingu@gem; Vol. 16 No. 3 (2022): Número Atemático; 1173-1202 Domínios de Lingu@gem; Vol. 16 Núm. 3 (2022): Número Atemático; 1173-1202 Domínios de Lingu@gem; v. 16 n. 3 (2022): Número Atemático; 1173-1202 1980-5799 reponame:Domínios de Lingu@gem instname:Universidade Federal de Uberlândia (UFU) instacron:UFU |
instname_str |
Universidade Federal de Uberlândia (UFU) |
instacron_str |
UFU |
institution |
UFU |
reponame_str |
Domínios de Lingu@gem |
collection |
Domínios de Lingu@gem |
repository.name.fl_str_mv |
Domínios de Lingu@gem - Universidade Federal de Uberlândia (UFU) |
repository.mail.fl_str_mv |
revistadominios@ileel.ufu.br|| |
_version_ |
1797067717682921472 |