How well can ASR technology understand foreign-accented speech?

Detalhes bibliográficos
Autor(a) principal: Souza, Hanna Kivisto de
Data de Publicação: 2022
Outros Autores: Gottardi, William
Tipo de documento: Artigo
Idioma: eng
Título da fonte: Trabalhos em Lingüística Aplicada (Online)
Texto Completo: https://periodicos.sbu.unicamp.br/ojs/index.php/tla/article/view/8668782
Resumo: Following the Covid-19 pandemic, digital technology is more present in classrooms than ever. Automatic Speech Recognition (ASR) offers interesting possibilities for language learners to produce more output in a foreign language (FL). ASR is especially suited for autonomous pronunciation learning when used as a dictation tool that transcribes the learner's speech (McCROCKLIN, 2016). However, ASR tools are trained with monolingual native speakers in mind, not reflecting the global reality of English speakers. Consequently, the present study examined how well two ASR-based dictation tools understand foreign-accented speech, and which FL speech features cause intelligibility breakdowns. English speech samples of 15 Brazilian Portuguese and 15 Spanish speakers were obtained from an online database (WEINBERGER, 2015) and submitted to two ASR dictation tools: Microsoft Word and VoiceNotebook. The resulting transcriptions were manually inspected, coded and categorized. The results show that overall intelligibility was high for both tools. However, many features of normal FL speech, such as vowel and consonant substitution, caused the ASR dictation tools to misinterpret the message leading to communication breakdowns. The results are discussed from a pedagogical viewpoint.
id UNICAMP-12_fc98916f624bda6ae212205914dbba90
oai_identifier_str oai:ojs.periodicos.sbu.unicamp.br:article/8668782
network_acronym_str UNICAMP-12
network_name_str Trabalhos em Lingüística Aplicada (Online)
repository_id_str
spelling How well can ASR technology understand foreign-accented speech?Quão bem a tecnologia RAF pode entender a fala com sotaque estrangeiro? ¿Qué tan bien puede la tecnología de la RAF entender el habla con acento extranjero?InteligibilidadeReconhecimento automático da falaDesenvolvimento de pronúncia em LEAprendizagem autônomaIntelligibilityL2 Pronunciation DevelopmentAutomatic speech recognitionAutonomous learningComprensibilidadReconocimiento automático de vozDesarrollo de la pronunciación en LEAprendiz autónomoFollowing the Covid-19 pandemic, digital technology is more present in classrooms than ever. Automatic Speech Recognition (ASR) offers interesting possibilities for language learners to produce more output in a foreign language (FL). ASR is especially suited for autonomous pronunciation learning when used as a dictation tool that transcribes the learner's speech (McCROCKLIN, 2016). However, ASR tools are trained with monolingual native speakers in mind, not reflecting the global reality of English speakers. Consequently, the present study examined how well two ASR-based dictation tools understand foreign-accented speech, and which FL speech features cause intelligibility breakdowns. English speech samples of 15 Brazilian Portuguese and 15 Spanish speakers were obtained from an online database (WEINBERGER, 2015) and submitted to two ASR dictation tools: Microsoft Word and VoiceNotebook. The resulting transcriptions were manually inspected, coded and categorized. The results show that overall intelligibility was high for both tools. However, many features of normal FL speech, such as vowel and consonant substitution, caused the ASR dictation tools to misinterpret the message leading to communication breakdowns. The results are discussed from a pedagogical viewpoint.Após a pandemia de Covid-19, as tecnologias digitais estão mais presente nas salas de aula do que nunca. O Reconhecimento Automático da Fala (RAF) oferece possibilidades interessantes para os aprendizes de uma língua estrangeira (LE) aumentarem sua produção oral. O RAF é especialmente adequado para a aprendizagem autônoma de pronúncia quando usado como uma ferramenta de ditado que transcreve a fala do estudante (McCROCKLIN, 2016). No entanto, as ferramentas de RAF são treinadas com falantes nativos monolíngues em mente, não refletindo a realidade dos falantes de inglês em uma escala global. Consequentemente, o presente estudo examinou quão bem duas ferramentas de ditado que utilizam ASR entendem a fala com sotaque estrangeiro e quais características causam falhas de inteligibilidade. Amostras de fala em inglês de 15 falantes de português brasileiro e 15 falantes de espanhol foram obtidas de um banco de dados online (WEINBERGER, 2015) e submetidas a duas ferramentas de ASR: Microsoft Word e VoiceNotebook. As transcrições foram manualmente inspecionadas, codificadas e categorizadas. Os resultados mostram que a inteligibilidade geral dos falantes foi alta para ambas as ferramentas. No entanto, muitas características normais, como modificações vocálicas e consonantais, da fala em LE fizeram com que as ferramentas de ditado ASR interpretassem mal a mensagem, levando a falhas de comunicação. Os resultados são discutidos do ponto de vista pedagógico.Tras la pandemia del Covid-19, las tecnologías digitales están más presentes que nunca en las aulas. El reconocimiento automático de voz (RAF) ofrece interesantes posibilidades para que los estudiantes de idiomas extranjeros (LE) aumenten su producción oral. LA RAF es especialmente adecuada para el aprendizaje autónomo de la pronunciación cuando se utiliza como una herramienta de dictado que transcribe el habla de los estudiantes (McCROCKLIN, 2016). Sin embargo, las herramientas de la RAF se entrenan teniendo en cuenta a los hablantes nativos monolingües, lo que no refleja la realidad de los hablantes de inglés a escala global. En consecuencia, el presente estudio examinó qué tan bien dos herramientas de dictado que usan ASR entienden el habla con acento extranjero y qué características causan fallas de inteligibilidad. Las muestras de habla inglesa de 15 hablantes de portugués brasileño y 15 hispanohablantes se obtuvieron de una base de datos en línea (WEINBERGER, 2015) y se enviaron a dos herramientas ASR: Microsoft Word y VoiceNotebook. Las transcripciones fueron inspeccionadas, codificadas y categorizadas manualmente. Los resultados muestran que la inteligibilidad general de los altavoces fue alta para ambas herramientas. Sin embargo, muchas características normales, como las modificaciones vocálicas y consonantes, del habla en LE causaron que las herramientas de dictado asr malinterpretaran el mensaje, lo que llevó a fallas de comunicación. Los resultados se discuten desde el punto de vista pedagógico.Universidade Estadual de Campinas2022-12-31info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionTextoTextoinfo:eu-repo/semantics/otherapplication/pdfhttps://periodicos.sbu.unicamp.br/ojs/index.php/tla/article/view/8668782Trabalhos em Linguística Aplicada; v. 61 n. 3 (2022): Os emaranhados do Português como Língua Adicional: cenários multilíngues ; 764-781Trabalhos em Linguística Aplicada; Vol. 61 No. 3 (2022): The entanglements of Portuguese as an Additional Language: multilingual ; 764-781Trabalhos em Linguística Aplicada; Vol. 61 Núm. 3 (2022): Los enmarañados del Portugués como Lengua Adicional: escenarios multiling ; 764-7812175-764Xreponame:Trabalhos em Lingüística Aplicada (Online)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPenghttps://periodicos.sbu.unicamp.br/ojs/index.php/tla/article/view/8668782/31756Copyright (c) 2022 Trabalhos em Linguística Aplicadahttps://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessSouza, Hanna Kivisto de Gottardi, William2023-04-04T14:25:33Zoai:ojs.periodicos.sbu.unicamp.br:article/8668782Revistahttps://periodicos.sbu.unicamp.br/ojs/index.php/tlaPUBhttps://periodicos.sbu.unicamp.br/ojs/index.php/tla/oaispublic@iel.unicamp.br2175-764X0103-1813opendoar:2023-04-04T14:25:33Trabalhos em Lingüística Aplicada (Online) - Universidade Estadual de Campinas (UNICAMP)false
dc.title.none.fl_str_mv How well can ASR technology understand foreign-accented speech?
Quão bem a tecnologia RAF pode entender a fala com sotaque estrangeiro?
¿Qué tan bien puede la tecnología de la RAF entender el habla con acento extranjero?
title How well can ASR technology understand foreign-accented speech?
spellingShingle How well can ASR technology understand foreign-accented speech?
Souza, Hanna Kivisto de
Inteligibilidade
Reconhecimento automático da fala
Desenvolvimento de pronúncia em LE
Aprendizagem autônoma
Intelligibility
L2 Pronunciation Development
Automatic speech recognition
Autonomous learning
Comprensibilidad
Reconocimiento automático de voz
Desarrollo de la pronunciación en LE
Aprendiz autónomo
title_short How well can ASR technology understand foreign-accented speech?
title_full How well can ASR technology understand foreign-accented speech?
title_fullStr How well can ASR technology understand foreign-accented speech?
title_full_unstemmed How well can ASR technology understand foreign-accented speech?
title_sort How well can ASR technology understand foreign-accented speech?
author Souza, Hanna Kivisto de
author_facet Souza, Hanna Kivisto de
Gottardi, William
author_role author
author2 Gottardi, William
author2_role author
dc.contributor.author.fl_str_mv Souza, Hanna Kivisto de
Gottardi, William
dc.subject.por.fl_str_mv Inteligibilidade
Reconhecimento automático da fala
Desenvolvimento de pronúncia em LE
Aprendizagem autônoma
Intelligibility
L2 Pronunciation Development
Automatic speech recognition
Autonomous learning
Comprensibilidad
Reconocimiento automático de voz
Desarrollo de la pronunciación en LE
Aprendiz autónomo
topic Inteligibilidade
Reconhecimento automático da fala
Desenvolvimento de pronúncia em LE
Aprendizagem autônoma
Intelligibility
L2 Pronunciation Development
Automatic speech recognition
Autonomous learning
Comprensibilidad
Reconocimiento automático de voz
Desarrollo de la pronunciación en LE
Aprendiz autónomo
description Following the Covid-19 pandemic, digital technology is more present in classrooms than ever. Automatic Speech Recognition (ASR) offers interesting possibilities for language learners to produce more output in a foreign language (FL). ASR is especially suited for autonomous pronunciation learning when used as a dictation tool that transcribes the learner's speech (McCROCKLIN, 2016). However, ASR tools are trained with monolingual native speakers in mind, not reflecting the global reality of English speakers. Consequently, the present study examined how well two ASR-based dictation tools understand foreign-accented speech, and which FL speech features cause intelligibility breakdowns. English speech samples of 15 Brazilian Portuguese and 15 Spanish speakers were obtained from an online database (WEINBERGER, 2015) and submitted to two ASR dictation tools: Microsoft Word and VoiceNotebook. The resulting transcriptions were manually inspected, coded and categorized. The results show that overall intelligibility was high for both tools. However, many features of normal FL speech, such as vowel and consonant substitution, caused the ASR dictation tools to misinterpret the message leading to communication breakdowns. The results are discussed from a pedagogical viewpoint.
publishDate 2022
dc.date.none.fl_str_mv 2022-12-31
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
Texto
Texto
info:eu-repo/semantics/other
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://periodicos.sbu.unicamp.br/ojs/index.php/tla/article/view/8668782
url https://periodicos.sbu.unicamp.br/ojs/index.php/tla/article/view/8668782
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv https://periodicos.sbu.unicamp.br/ojs/index.php/tla/article/view/8668782/31756
dc.rights.driver.fl_str_mv Copyright (c) 2022 Trabalhos em Linguística Aplicada
https://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Copyright (c) 2022 Trabalhos em Linguística Aplicada
https://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual de Campinas
publisher.none.fl_str_mv Universidade Estadual de Campinas
dc.source.none.fl_str_mv Trabalhos em Linguística Aplicada; v. 61 n. 3 (2022): Os emaranhados do Português como Língua Adicional: cenários multilíngues ; 764-781
Trabalhos em Linguística Aplicada; Vol. 61 No. 3 (2022): The entanglements of Portuguese as an Additional Language: multilingual ; 764-781
Trabalhos em Linguística Aplicada; Vol. 61 Núm. 3 (2022): Los enmarañados del Portugués como Lengua Adicional: escenarios multiling ; 764-781
2175-764X
reponame:Trabalhos em Lingüística Aplicada (Online)
instname:Universidade Estadual de Campinas (UNICAMP)
instacron:UNICAMP
instname_str Universidade Estadual de Campinas (UNICAMP)
instacron_str UNICAMP
institution UNICAMP
reponame_str Trabalhos em Lingüística Aplicada (Online)
collection Trabalhos em Lingüística Aplicada (Online)
repository.name.fl_str_mv Trabalhos em Lingüística Aplicada (Online) - Universidade Estadual de Campinas (UNICAMP)
repository.mail.fl_str_mv spublic@iel.unicamp.br
_version_ 1800216523443273728