Detalhes bibliográficos
Título da fonte: Repositório Institucional da UFMG
id UFMG_c5acaeffdc8ce26327fcd5ae90207c30
oai_identifier_str oai:repositorio.ufmg.br:1843/34183
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
reponame_str Repositório Institucional da UFMG
instacron_str UFMG
institution Universidade Federal de Minas Gerais (UFMG)
instname_str Universidade Federal de Minas Gerais (UFMG)
spelling Adriano Vilela Barbosahttp://lattes.cnpq.br/9631335587847579Maria Mendes CantoniHani Camille YehiaFrederico Gualberto Ferreira CoelhoAdriano Chaves Lisboahttp://lattes.cnpq.br/3267282896459757João Vítor Possamai de Menezes2020-09-21T19:46:19Z2020-09-21T19:46:19Z2020-07-31http://hdl.handle.net/1843/34183https://orcid.org/0000-0002-7612-9754Sabe-se que a fala se manifesta não só de forma acústica, mas também visual, por meio de movimentos faciais e gestos corporais, além de possuir correlatos fisiológicos como o movimento do trato vocal e a atividade neural. Este trabalho apresenta uma análise audiovisual da produção de tons lexicais, que são variações de graves e agudos que mudam o significado das palavras em línguas tonais. Tons lexicais são tradicionalmente estudados em termos de parâmetros acústicos, como a frequência fundamental (F0) do sinal de fala. Este trabalho, no entanto, adota uma abordagem integrada, investigando a contribuição, de forma isolada e conjunta, das componentes acústica e visual da fala para a diferenciação dos tons lexicais em três línguas tonais (cantonês, mandarim e tailandês). A abordagem adotada é tentar classificar os tons de cada língua a partir de cada componente tomada isoladamente e comparar seus desempenhos. Foram coletados dados em experimentos audiovisuais de produção de fala com sete falantes das três línguas. A componente visual da fala foi obtida por meio do rastreamento 3D de marcadores fixados à face e à cabeça das participantes, e a componente acústica foi obtida, de forma simultânea, por um microfone. Após o experimento, as posições dos marcadores foram submetidas a um procedimento de compensação do movimento da cabeça com o intuito de decompô-las em suas duas componentes: uma devida ao movimento da face e outra devida ao movimento de corpo rígido da cabeça. O sinal acústico teve sua F0 estimada por meio do método de autocorrelação. Neste ponto, a componente visual é representada por três tipos de sinais: Movimento Total (posições dos marcadores), Face e Cabeça (resultantes da decomposição); e a componente acústica é representada pelas curvas de F0. Todos os tipos de sinais foram parametrizados por meio de regressão polinomial, sendo representados por coeficientes que aproximam sua trajetória original. Os sinais parametrizados foram então utilizados para treinar classificadores lineares e não-lineares, com os tons de cada língua usados como rótulos das classes. A capacidade de cada tipo de sinal de classificar os diferentes tons lexicais foi medida por meio da acurácia de cada classificador, obtida com validação cruzada em K partes (K = 5). Os sinais visuais foram capazes de classificar tons lexicais, nas três línguas, com acurácia acima da aleatória. As maiores acurácias foram obtidas pelos sinais de F0. Entre os sinais visuais, as maiores acurácias foram obtidas, em ordem decrescente, pelos sinais Movimento Total e Face. Além disso, alguns tons lexicais de uma mesma língua foram classificados com acurácias acima da média, sugerindo que alguns tons são mais fáceis de serem classificados do que outros. Os resultados obtidos estão de acordo com a literatura e sugerem que tons lexicais podem ser preditos não só por F0, mas também, em menor grau, pelos movimentos da face e da cabeça.It is known that speech manifests itself not only acoustically, but also visually, through facial movements and body gestures, in addition to having physiological correlates such as movement of the vocal tract and neural activity. This work presents an audiovisual analysis of the production of lexical tones, which are pitch variations that change the meaning of words in tone languages. Lexical tones are traditionally studied in terms of acoustic parameters, such as the fundamental frequency (F0) of the speech signal. This work, however, adopts an integrated approach, investigating the contribution, in isolation and jointly, of the acoustic and visual components of speech to the differentiation of lexical tones in three tone languages (Cantonese, Mandarin and Thai). The approach adopted consists in classifying the tones of each language from each component taken in isolation and to compare their performances. Data was collected in audiovisual speech production experiments with seven speakers of the three languages. The visual component of speech was obtained through 3D tracking of markers fixed to the participants' faces and heads, and the acoustic component was obtained simultaneously by a microphone. After the experiment, the positions of the markers were subjected to a head movement compensation procedure in order to separate them into their two components: one due to the movement of the face and the other due to the movement of the rigid body of the head. The acoustic signal had its F0 estimated through the autocorrelation method. At this point, the visual component is represented by three types of signals: Total movement (marker positions), Face and Head (resulting from the decomposition); and the acoustic component is represented by the F0 curves. All types of signals were parameterized using polynomial regression, being represented by coefficients that approximate their original trajectory. The parameterized signals were then used to train linear and non-linear classifiers, with the tones of each language used as class labels. The ability of each type of signal to classify the different lexical tones was measured using the accuracy of each classifier, obtained with cross-validation in K parts (K = 5). Visual signals were able to classify lexical tones in the three languages, with accuracy above chance. The highest accuracy was obtained by the F0 signals. Among the visual signals, the highest accuracy was obtained, in decreasing order, by the signals Total Movement and Face. In addition, some lexical tones of the same language were classified with above-average accuracy, suggesting that some tones are easier to classify than others. The results obtained are in accordance with the literature and suggest that lexical tones can be predicted not only by F0, but also, to a lesser extent, by the movements of the face and head.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal de Minas GeraisPrograma de Pós-Graduação em Engenharia ElétricaUFMGBrasilENG - DEPARTAMENTO DE ENGENHARIA ELÉTRICAhttp://creativecommons.org/licenses/by-nc-nd/3.0/pt/info:eu-repo/semantics/openAccessEngenharia elétricaFalaLexicologiaFala multimodalLínguas tonaisTom lexicalClassificação estatísticaUma análise audiovisual da produção de tons lexicaisAn audiovisual analysis of lexical tone productioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALDissertacao_MENEZES_JVP_final-pdfa.pdfDissertacao_MENEZES_JVP_final-pdfa.pdfapplication/pdf5147999https://repositorio.ufmg.br/bitstream/1843/34183/1/Dissertacao_MENEZES_JVP_final-pdfa.pdf78c964cab27738d689bb0e50845f27c0MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufmg.br/bitstream/1843/34183/2/license_rdfcfd6801dba008cb6adbd9838b81582abMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82119https://repositorio.ufmg.br/bitstream/1843/34183/3/license.txt34badce4be7e31e3adb4575ae96af679MD531843/341832020-09-21 16:46:19.06oai:repositorio.ufmg.br:1843/34183TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEgRE8gUkVQT1NJVMOTUklPIElOU1RJVFVDSU9OQUwgREEgVUZNRwoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIChSSS1VRk1HKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZSBpcnJldm9nw6F2ZWwgZGUgcmVwcm9kdXppciBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBkZWNsYXJhIHF1ZSBjb25oZWNlIGEgcG9sw610aWNhIGRlIGNvcHlyaWdodCBkYSBlZGl0b3JhIGRvIHNldSBkb2N1bWVudG8gZSBxdWUgY29uaGVjZSBlIGFjZWl0YSBhcyBEaXJldHJpemVzIGRvIFJJLVVGTUcuCgpWb2PDqiBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGTUcgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRlIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHB1YmxpY2HDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBQVUJMSUNBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lKHMpIG91IG8ocykgbm9tZXMocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KCg==Repositório InstitucionalPUBhttps://repositorio.ufmg.br/oaiopendoar:2020-09-21T19:46:19Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
_version_ 1813548236462358528