Visual speech recognition for European Portuguese

Abreu, Hélder Paulo Monteiro

Visual speech recognition for European Portuguese

Detalhes bibliográficos
Autor(a) principal:	Abreu, Hélder Paulo Monteiro
Data de Publicação:	2014
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/1822/37465
Resumo:	Dissertação de mestrado em Engenharia Informática

Metadados do item

id	RCAP_491606dfb240ddfa18aaa9cd4cb5142d
oai_identifier_str	oai:repositorium.sdum.uminho.pt:1822/37465
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Visual speech recognition for European PortugueseReconhecimento visual da fala para português europeuSpeech recognitionKinectComputer visionEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em Engenharia InformáticaO reconhecimento da fala baseado em características visuais teve início na década de 80, integrado em sistemas de reconhecimento audiovisual da fala. De facto, o objetivo inicial do recurso a características visuais foi o de aumentar a robustez dos sistemas de reconhecimento automático da fala, que perdem precisão rapidamente em ambientes ruidosos. Contudo, o potencial para manter um bom desempenho de reconhecimento de fala em situações em que os dados acústicos estão comprometidos ou em qualquer outra situação em que é necessária uma pessoa capaz de ler os lábios, levou os investigadores e a criar e desenvolver a área de reconhecimento visual da fala. Os sistemas tradicionais de reconhecimento visual da fala usam apenas informação RGB, seguindo uma abordagem unimodal, uma vez que o recurso a outras modalidades é dispendioso e implica problemas de sincronização entre as mesmas. O lançamento do Microsoft Kinect, que inclui um microfone, uma câmara RGB e um sensor de profundidade, abriu novas portas às áreas de reconhecimento da fala. Para além disso, todas as modalidades podem ser sincronizadas usando as funcionalidades do SDK. Recentemente, a Microsoft lançou o novo Kinect One, que oferece uma melhor câmara e um sensor de profundidade com uma tecnologia diferente e mais precisa. O objetivo principal desta tese consiste em criar um sistema de reconhecimento visual da fala baseado no Kinect e verificar se um sistema multimodal, baseado em RGB e dados de profundidade, é capaz de obter melhores resultados do que um sistema unimodal baseado exclusivamente em RGB. Considerando o processo de extração de características, uma abordagem recente baseada em características articulatórias tem mostrado resultados promissores, quando comparada com abordagens baseadas em visemas. Esta tese pretende verificar se uma abordagem articulatória obtém melhores resultados que uma abordagem baseada na forma. O sistema desenvolvido, chamado ViKi (Visual Speech Recognition for Kinect), alcançou uma taxa de reconhecimento de 68% num vocabulário de 25 palavras isoladas, com 8 oradores, superando a abordagem unimodal testada. A informação de profundidade provou aumentar a taxa de reconhecimento do sistema, tanto na abordagem articulatória (+8%) como na abordagem baseada na forma (+2%). Num contexto de dependência em relação ao orador, ViKi também alcançou uma média de ≈70% de taxa de reconhecimento. A abordagem articulatória obteve piores resultados que a abordagem baseada na forma, alcançando 34% de taxa de reconhecimento, contrariando os resultados obtidos em estudos prévios com abordagens baseadas na aparência e a terceira hipótese desta tese.Speech recognition based on visual features began in the early 1980s, embedded on AudioVisual Speech Recognition systems. In fact, the initial purpose to the use of visual cues was to increase the robustness of Automatic Speech Recognition systems, which rapidly lose accuracy in noisy environments. However, the potential to keep a good accuracy, whenever the use of an acoustic stream is excluded and in any other situations where a human lip reader would be needed, led researchers to create and explore the Visual Speech Recognition (VSR) field. Traditional VSR systems used only RGB information, following an unimodal approach, since the addition of other visual modalities could be expensive and present synchronization issues. The release of the Microsoft Kinect sensor brought new possibilities for the speech recognition fields. This sensor includes a microphone array, a RGB camera and a depth sensor. Furthermore, all its input modalities can be synchronized using the features of its SDK. Recently, Microsoft released the new Kinect One, offering a better camera and a different and improved depth sensing technology. This thesis sets the hypothesis that, using the available input HCI modalities of such sensor, such as RGB video and depth, as well as the skeletal tracking features available in the SDK and, by adopting a multimodal VSR articulatory approach, we can improve word recognition rate accuracy of a VSR system, compared to a unimodal approach using only RGB data. Regarding the feature extraction process, a recent approaches based on articulatory features have been shown promising results, when compared to standard shape-based viseme approaches. In this thesis, we also aim to verify the hypothesis that an articulatory VSR can outperform a shapebased approach, in what concerns word recognition rate. The VSR system developed in this thesis, named ViKi (Visual Speech Recognition for Kinect), achieved a 68% word recognition rate on a scenario where 8 speakers, pronounced a vocabulary of 25 isolated words, outperforming our tested unimodal approach. The use of depth information proved to increase the system accuracy, both for the articulatory (+8%) and the shape-based approach (+2%). On a speaker-dependent context, ViKi also achieved an interesting average accuracy of ≈70%. The articulatory approach performed worse than the shape-based, reaching 34% of word accuracy, contrary to what happens with previous research based on appearance approaches and not confirming our third hypothesis.Silva, Carlos A.Dias, Miguel SalesUniversidade do MinhoAbreu, Hélder Paulo Monteiro2014-12-182014-12-18T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/37465eng201195313info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T11:58:45Zoai:repositorium.sdum.uminho.pt:1822/37465Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T18:48:32.190441Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Visual speech recognition for European Portuguese Reconhecimento visual da fala para português europeu
title	Visual speech recognition for European Portuguese
spellingShingle	Visual speech recognition for European Portuguese Abreu, Hélder Paulo Monteiro Speech recognition Kinect Computer vision Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short	Visual speech recognition for European Portuguese
title_full	Visual speech recognition for European Portuguese
title_fullStr	Visual speech recognition for European Portuguese
title_full_unstemmed	Visual speech recognition for European Portuguese
title_sort	Visual speech recognition for European Portuguese
author	Abreu, Hélder Paulo Monteiro
author_facet	Abreu, Hélder Paulo Monteiro
author_role	author
dc.contributor.none.fl_str_mv	Silva, Carlos A. Dias, Miguel Sales Universidade do Minho
dc.contributor.author.fl_str_mv	Abreu, Hélder Paulo Monteiro
dc.subject.por.fl_str_mv	Speech recognition Kinect Computer vision Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic	Speech recognition Kinect Computer vision Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description	Dissertação de mestrado em Engenharia Informática
publishDate	2014
dc.date.none.fl_str_mv	2014-12-18 2014-12-18T00:00:00Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1822/37465
url	http://hdl.handle.net/1822/37465
dc.language.iso.fl_str_mv	eng
language	eng
dc.relation.none.fl_str_mv	201195313
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799132246546841600

Visual speech recognition for European Portuguese

Registros relacionados