Uma análise audiovisual da produção de tons lexicais

Detalhes bibliográficos
Autor(a) principal: João Vítor Possamai de Menezes
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/34183
https://orcid.org/0000-0002-7612-9754
Resumo: Sabe-se que a fala se manifesta não só de forma acústica, mas também visual, por meio de movimentos faciais e gestos corporais, além de possuir correlatos fisiológicos como o movimento do trato vocal e a atividade neural. Este trabalho apresenta uma análise audiovisual da produção de tons lexicais, que são variações de graves e agudos que mudam o significado das palavras em línguas tonais. Tons lexicais são tradicionalmente estudados em termos de parâmetros acústicos, como a frequência fundamental (F0) do sinal de fala. Este trabalho, no entanto, adota uma abordagem integrada, investigando a contribuição, de forma isolada e conjunta, das componentes acústica e visual da fala para a diferenciação dos tons lexicais em três línguas tonais (cantonês, mandarim e tailandês). A abordagem adotada é tentar classificar os tons de cada língua a partir de cada componente tomada isoladamente e comparar seus desempenhos. Foram coletados dados em experimentos audiovisuais de produção de fala com sete falantes das três línguas. A componente visual da fala foi obtida por meio do rastreamento 3D de marcadores fixados à face e à cabeça das participantes, e a componente acústica foi obtida, de forma simultânea, por um microfone. Após o experimento, as posições dos marcadores foram submetidas a um procedimento de compensação do movimento da cabeça com o intuito de decompô-las em suas duas componentes: uma devida ao movimento da face e outra devida ao movimento de corpo rígido da cabeça. O sinal acústico teve sua F0 estimada por meio do método de autocorrelação. Neste ponto, a componente visual é representada por três tipos de sinais: Movimento Total (posições dos marcadores), Face e Cabeça (resultantes da decomposição); e a componente acústica é representada pelas curvas de F0. Todos os tipos de sinais foram parametrizados por meio de regressão polinomial, sendo representados por coeficientes que aproximam sua trajetória original. Os sinais parametrizados foram então utilizados para treinar classificadores lineares e não-lineares, com os tons de cada língua usados como rótulos das classes. A capacidade de cada tipo de sinal de classificar os diferentes tons lexicais foi medida por meio da acurácia de cada classificador, obtida com validação cruzada em K partes (K = 5). Os sinais visuais foram capazes de classificar tons lexicais, nas três línguas, com acurácia acima da aleatória. As maiores acurácias foram obtidas pelos sinais de F0. Entre os sinais visuais, as maiores acurácias foram obtidas, em ordem decrescente, pelos sinais Movimento Total e Face. Além disso, alguns tons lexicais de uma mesma língua foram classificados com acurácias acima da média, sugerindo que alguns tons são mais fáceis de serem classificados do que outros. Os resultados obtidos estão de acordo com a literatura e sugerem que tons lexicais podem ser preditos não só por F0, mas também, em menor grau, pelos movimentos da face e da cabeça.
id UFMG_c5acaeffdc8ce26327fcd5ae90207c30
oai_identifier_str oai:repositorio.ufmg.br:1843/34183
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Adriano Vilela Barbosahttp://lattes.cnpq.br/9631335587847579Maria Mendes CantoniHani Camille YehiaFrederico Gualberto Ferreira CoelhoAdriano Chaves Lisboahttp://lattes.cnpq.br/3267282896459757João Vítor Possamai de Menezes2020-09-21T19:46:19Z2020-09-21T19:46:19Z2020-07-31http://hdl.handle.net/1843/34183https://orcid.org/0000-0002-7612-9754Sabe-se que a fala se manifesta não só de forma acústica, mas também visual, por meio de movimentos faciais e gestos corporais, além de possuir correlatos fisiológicos como o movimento do trato vocal e a atividade neural. Este trabalho apresenta uma análise audiovisual da produção de tons lexicais, que são variações de graves e agudos que mudam o significado das palavras em línguas tonais. Tons lexicais são tradicionalmente estudados em termos de parâmetros acústicos, como a frequência fundamental (F0) do sinal de fala. Este trabalho, no entanto, adota uma abordagem integrada, investigando a contribuição, de forma isolada e conjunta, das componentes acústica e visual da fala para a diferenciação dos tons lexicais em três línguas tonais (cantonês, mandarim e tailandês). A abordagem adotada é tentar classificar os tons de cada língua a partir de cada componente tomada isoladamente e comparar seus desempenhos. Foram coletados dados em experimentos audiovisuais de produção de fala com sete falantes das três línguas. A componente visual da fala foi obtida por meio do rastreamento 3D de marcadores fixados à face e à cabeça das participantes, e a componente acústica foi obtida, de forma simultânea, por um microfone. Após o experimento, as posições dos marcadores foram submetidas a um procedimento de compensação do movimento da cabeça com o intuito de decompô-las em suas duas componentes: uma devida ao movimento da face e outra devida ao movimento de corpo rígido da cabeça. O sinal acústico teve sua F0 estimada por meio do método de autocorrelação. Neste ponto, a componente visual é representada por três tipos de sinais: Movimento Total (posições dos marcadores), Face e Cabeça (resultantes da decomposição); e a componente acústica é representada pelas curvas de F0. Todos os tipos de sinais foram parametrizados por meio de regressão polinomial, sendo representados por coeficientes que aproximam sua trajetória original. Os sinais parametrizados foram então utilizados para treinar classificadores lineares e não-lineares, com os tons de cada língua usados como rótulos das classes. A capacidade de cada tipo de sinal de classificar os diferentes tons lexicais foi medida por meio da acurácia de cada classificador, obtida com validação cruzada em K partes (K = 5). Os sinais visuais foram capazes de classificar tons lexicais, nas três línguas, com acurácia acima da aleatória. As maiores acurácias foram obtidas pelos sinais de F0. Entre os sinais visuais, as maiores acurácias foram obtidas, em ordem decrescente, pelos sinais Movimento Total e Face. Além disso, alguns tons lexicais de uma mesma língua foram classificados com acurácias acima da média, sugerindo que alguns tons são mais fáceis de serem classificados do que outros. Os resultados obtidos estão de acordo com a literatura e sugerem que tons lexicais podem ser preditos não só por F0, mas também, em menor grau, pelos movimentos da face e da cabeça.It is known that speech manifests itself not only acoustically, but also visually, through facial movements and body gestures, in addition to having physiological correlates such as movement of the vocal tract and neural activity. This work presents an audiovisual analysis of the production of lexical tones, which are pitch variations that change the meaning of words in tone languages. Lexical tones are traditionally studied in terms of acoustic parameters, such as the fundamental frequency (F0) of the speech signal. This work, however, adopts an integrated approach, investigating the contribution, in isolation and jointly, of the acoustic and visual components of speech to the differentiation of lexical tones in three tone languages (Cantonese, Mandarin and Thai). The approach adopted consists in classifying the tones of each language from each component taken in isolation and to compare their performances. Data was collected in audiovisual speech production experiments with seven speakers of the three languages. The visual component of speech was obtained through 3D tracking of markers fixed to the participants' faces and heads, and the acoustic component was obtained simultaneously by a microphone. After the experiment, the positions of the markers were subjected to a head movement compensation procedure in order to separate them into their two components: one due to the movement of the face and the other due to the movement of the rigid body of the head. The acoustic signal had its F0 estimated through the autocorrelation method. At this point, the visual component is represented by three types of signals: Total movement (marker positions), Face and Head (resulting from the decomposition); and the acoustic component is represented by the F0 curves. All types of signals were parameterized using polynomial regression, being represented by coefficients that approximate their original trajectory. The parameterized signals were then used to train linear and non-linear classifiers, with the tones of each language used as class labels. The ability of each type of signal to classify the different lexical tones was measured using the accuracy of each classifier, obtained with cross-validation in K parts (K = 5). Visual signals were able to classify lexical tones in the three languages, with accuracy above chance. The highest accuracy was obtained by the F0 signals. Among the visual signals, the highest accuracy was obtained, in decreasing order, by the signals Total Movement and Face. In addition, some lexical tones of the same language were classified with above-average accuracy, suggesting that some tones are easier to classify than others. The results obtained are in accordance with the literature and suggest that lexical tones can be predicted not only by F0, but also, to a lesser extent, by the movements of the face and head.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal de Minas GeraisPrograma de Pós-Graduação em Engenharia ElétricaUFMGBrasilENG - DEPARTAMENTO DE ENGENHARIA ELÉTRICAhttp://creativecommons.org/licenses/by-nc-nd/3.0/pt/info:eu-repo/semantics/openAccessEngenharia elétricaFalaLexicologiaFala multimodalLínguas tonaisTom lexicalClassificação estatísticaUma análise audiovisual da produção de tons lexicaisAn audiovisual analysis of lexical tone productioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALDissertacao_MENEZES_JVP_final-pdfa.pdfDissertacao_MENEZES_JVP_final-pdfa.pdfapplication/pdf5147999https://repositorio.ufmg.br/bitstream/1843/34183/1/Dissertacao_MENEZES_JVP_final-pdfa.pdf78c964cab27738d689bb0e50845f27c0MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufmg.br/bitstream/1843/34183/2/license_rdfcfd6801dba008cb6adbd9838b81582abMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82119https://repositorio.ufmg.br/bitstream/1843/34183/3/license.txt34badce4be7e31e3adb4575ae96af679MD531843/341832020-09-21 16:46:19.06oai:repositorio.ufmg.br:1843/34183TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEgRE8gUkVQT1NJVMOTUklPIElOU1RJVFVDSU9OQUwgREEgVUZNRwoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIChSSS1VRk1HKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZSBpcnJldm9nw6F2ZWwgZGUgcmVwcm9kdXppciBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBkZWNsYXJhIHF1ZSBjb25oZWNlIGEgcG9sw610aWNhIGRlIGNvcHlyaWdodCBkYSBlZGl0b3JhIGRvIHNldSBkb2N1bWVudG8gZSBxdWUgY29uaGVjZSBlIGFjZWl0YSBhcyBEaXJldHJpemVzIGRvIFJJLVVGTUcuCgpWb2PDqiBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGTUcgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRlIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHB1YmxpY2HDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBQVUJMSUNBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lKHMpIG91IG8ocykgbm9tZXMocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KCg==Repositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2020-09-21T19:46:19Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Uma análise audiovisual da produção de tons lexicais
dc.title.alternative.pt_BR.fl_str_mv An audiovisual analysis of lexical tone production
title Uma análise audiovisual da produção de tons lexicais
spellingShingle Uma análise audiovisual da produção de tons lexicais
João Vítor Possamai de Menezes
Fala multimodal
Línguas tonais
Tom lexical
Classificação estatística
Engenharia elétrica
Fala
Lexicologia
title_short Uma análise audiovisual da produção de tons lexicais
title_full Uma análise audiovisual da produção de tons lexicais
title_fullStr Uma análise audiovisual da produção de tons lexicais
title_full_unstemmed Uma análise audiovisual da produção de tons lexicais
title_sort Uma análise audiovisual da produção de tons lexicais
author João Vítor Possamai de Menezes
author_facet João Vítor Possamai de Menezes
author_role author
dc.contributor.advisor1.fl_str_mv Adriano Vilela Barbosa
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/9631335587847579
dc.contributor.advisor-co1.fl_str_mv Maria Mendes Cantoni
dc.contributor.referee1.fl_str_mv Hani Camille Yehia
dc.contributor.referee2.fl_str_mv Frederico Gualberto Ferreira Coelho
dc.contributor.referee3.fl_str_mv Adriano Chaves Lisboa
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/3267282896459757
dc.contributor.author.fl_str_mv João Vítor Possamai de Menezes
contributor_str_mv Adriano Vilela Barbosa
Maria Mendes Cantoni
Hani Camille Yehia
Frederico Gualberto Ferreira Coelho
Adriano Chaves Lisboa
dc.subject.por.fl_str_mv Fala multimodal
Línguas tonais
Tom lexical
Classificação estatística
topic Fala multimodal
Línguas tonais
Tom lexical
Classificação estatística
Engenharia elétrica
Fala
Lexicologia
dc.subject.other.pt_BR.fl_str_mv Engenharia elétrica
Fala
Lexicologia
description Sabe-se que a fala se manifesta não só de forma acústica, mas também visual, por meio de movimentos faciais e gestos corporais, além de possuir correlatos fisiológicos como o movimento do trato vocal e a atividade neural. Este trabalho apresenta uma análise audiovisual da produção de tons lexicais, que são variações de graves e agudos que mudam o significado das palavras em línguas tonais. Tons lexicais são tradicionalmente estudados em termos de parâmetros acústicos, como a frequência fundamental (F0) do sinal de fala. Este trabalho, no entanto, adota uma abordagem integrada, investigando a contribuição, de forma isolada e conjunta, das componentes acústica e visual da fala para a diferenciação dos tons lexicais em três línguas tonais (cantonês, mandarim e tailandês). A abordagem adotada é tentar classificar os tons de cada língua a partir de cada componente tomada isoladamente e comparar seus desempenhos. Foram coletados dados em experimentos audiovisuais de produção de fala com sete falantes das três línguas. A componente visual da fala foi obtida por meio do rastreamento 3D de marcadores fixados à face e à cabeça das participantes, e a componente acústica foi obtida, de forma simultânea, por um microfone. Após o experimento, as posições dos marcadores foram submetidas a um procedimento de compensação do movimento da cabeça com o intuito de decompô-las em suas duas componentes: uma devida ao movimento da face e outra devida ao movimento de corpo rígido da cabeça. O sinal acústico teve sua F0 estimada por meio do método de autocorrelação. Neste ponto, a componente visual é representada por três tipos de sinais: Movimento Total (posições dos marcadores), Face e Cabeça (resultantes da decomposição); e a componente acústica é representada pelas curvas de F0. Todos os tipos de sinais foram parametrizados por meio de regressão polinomial, sendo representados por coeficientes que aproximam sua trajetória original. Os sinais parametrizados foram então utilizados para treinar classificadores lineares e não-lineares, com os tons de cada língua usados como rótulos das classes. A capacidade de cada tipo de sinal de classificar os diferentes tons lexicais foi medida por meio da acurácia de cada classificador, obtida com validação cruzada em K partes (K = 5). Os sinais visuais foram capazes de classificar tons lexicais, nas três línguas, com acurácia acima da aleatória. As maiores acurácias foram obtidas pelos sinais de F0. Entre os sinais visuais, as maiores acurácias foram obtidas, em ordem decrescente, pelos sinais Movimento Total e Face. Além disso, alguns tons lexicais de uma mesma língua foram classificados com acurácias acima da média, sugerindo que alguns tons são mais fáceis de serem classificados do que outros. Os resultados obtidos estão de acordo com a literatura e sugerem que tons lexicais podem ser preditos não só por F0, mas também, em menor grau, pelos movimentos da face e da cabeça.
publishDate 2020
dc.date.accessioned.fl_str_mv 2020-09-21T19:46:19Z
dc.date.available.fl_str_mv 2020-09-21T19:46:19Z
dc.date.issued.fl_str_mv 2020-07-31
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/34183
dc.identifier.orcid.pt_BR.fl_str_mv https://orcid.org/0000-0002-7612-9754
url http://hdl.handle.net/1843/34183
https://orcid.org/0000-0002-7612-9754
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Engenharia Elétrica
dc.publisher.initials.fl_str_mv UFMG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv ENG - DEPARTAMENTO DE ENGENHARIA ELÉTRICA
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/34183/1/Dissertacao_MENEZES_JVP_final-pdfa.pdf
https://repositorio.ufmg.br/bitstream/1843/34183/2/license_rdf
https://repositorio.ufmg.br/bitstream/1843/34183/3/license.txt
bitstream.checksum.fl_str_mv 78c964cab27738d689bb0e50845f27c0
cfd6801dba008cb6adbd9838b81582ab
34badce4be7e31e3adb4575ae96af679
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589517062438912