Detecção visual de atividade de voz com base na movimentação labial
Autor(a) principal: | |
---|---|
Data de Publicação: | 2013 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/72922 |
Resumo: | O movimento dos lábios é um recurso visual relevante para a detecção da atividade de voz do locutor e para o reconhecimento da fala. Quando os lábios estão se movendo eles transmitem a idéia de ocorrências de diálogos (conversas ou períodos de fala) para o observador, enquanto que os períodos de silêncio podem ser representados pela ausência de movimentações dos lábios (boca fechada). Baseado nesta idéia, este trabalho foca esforços para detectar a movimentação de lábios e usá-la para realizar a detecção de atividade de voz. Primeiramente, é realizada a detecção de pele e a detecção de face para reduzir a área de extração dos lábios, sendo que as regiões mais prováveis de serem lábios são computadas usando a abordagem Bayesiana dentro da área delimitada. Então, a pré-segmentação dos lábios é obtida pela limiarização da região das probabilidades calculadas. A seguir, é localizada a região da boca pelo resultado obtido na pré-segmentação dos lábios, ou seja, alguns pixels que não são de lábios e foram detectados são eliminados, e em seguida são aplicados algumas operações morfológicas para incluir alguns pixels labiais e não labiais em torno da boca. Então, uma nova segmentação de lábios é realizada sobre a região da boca depois de aplicada uma transformação de cores para realçar a região a ser segmentada. Após a segmentação, é aplicado o fechamento das lacunas internas dos lábios segmentados. Finalmente, o movimento temporal dos lábios é explorado usando o modelo das cadeias ocultas de Markov (HMMs) para detectar as prováveis ocorrências de atividades de fala dentro de uma janela temporal. |
id |
URGS_f78abfbb7a0856da02125addcec9e12d |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/72922 |
network_acronym_str |
URGS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
repository_id_str |
1853 |
spelling |
Lopes, Carlos Bruno OliveiraScharcanski, Jacob2013-07-02T01:43:40Z2013http://hdl.handle.net/10183/72922000891170O movimento dos lábios é um recurso visual relevante para a detecção da atividade de voz do locutor e para o reconhecimento da fala. Quando os lábios estão se movendo eles transmitem a idéia de ocorrências de diálogos (conversas ou períodos de fala) para o observador, enquanto que os períodos de silêncio podem ser representados pela ausência de movimentações dos lábios (boca fechada). Baseado nesta idéia, este trabalho foca esforços para detectar a movimentação de lábios e usá-la para realizar a detecção de atividade de voz. Primeiramente, é realizada a detecção de pele e a detecção de face para reduzir a área de extração dos lábios, sendo que as regiões mais prováveis de serem lábios são computadas usando a abordagem Bayesiana dentro da área delimitada. Então, a pré-segmentação dos lábios é obtida pela limiarização da região das probabilidades calculadas. A seguir, é localizada a região da boca pelo resultado obtido na pré-segmentação dos lábios, ou seja, alguns pixels que não são de lábios e foram detectados são eliminados, e em seguida são aplicados algumas operações morfológicas para incluir alguns pixels labiais e não labiais em torno da boca. Então, uma nova segmentação de lábios é realizada sobre a região da boca depois de aplicada uma transformação de cores para realçar a região a ser segmentada. Após a segmentação, é aplicado o fechamento das lacunas internas dos lábios segmentados. Finalmente, o movimento temporal dos lábios é explorado usando o modelo das cadeias ocultas de Markov (HMMs) para detectar as prováveis ocorrências de atividades de fala dentro de uma janela temporal.Lips motion are relevant visual feature for detecting the voice active of speaker and speech recognition. When the lips are moving, they carries an idea of occurrence of dialogues (talk) or periods of speeches to the watcher, whereas the periods of silences may be represented by the absence of lips motion (mouth closed). Based on this idea, this work focus efforts to obtain the lips motion as features and to perform visual voice activity detection. First, the algorithm performs skin segmentation and face detection to reduce the search area for lip extraction, and the most likely lip regions are computed using a Bayesian approach within the delimited area. Then, the pre-segmentation of the lips is obtained by thresholding the calculated probability region. After, it is localized the mouth region by resulted obtained in pre-segmentation of the lips, i.e., some nonlips pixels detected are eliminated, and it are applied a simple morphological operators to include some lips pixels and non-lips around the mouth. Thus, a new segmentation of lips is performed over mouth region after transformation of color to enhance the region to be segmented. And, is applied the closing of gaps internal of lips segmented. Finally, the temporal motion of the lips is explored using Hidden Markov Models (HMMs) to detect the likely occurrence of active speech within a temporal window.application/pdfporComputação gráficaInformática médicaProcessamento de imagensBayesian methodSkin segmentationLip segmentationMorphological operatorsHidden markov modelDetecção visual de atividade de voz com base na movimentação labialVisual voice activity detection using as information the lips motion info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2013mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000891170.pdf000891170.pdfTexto completoapplication/pdf3511836http://www.lume.ufrgs.br/bitstream/10183/72922/1/000891170.pdf8872530a012c11a67477ae6241cc3849MD51TEXT000891170.pdf.txt000891170.pdf.txtExtracted Texttext/plain146725http://www.lume.ufrgs.br/bitstream/10183/72922/2/000891170.pdf.txt24ead1d2c0c155e4f4eb5de9730c8472MD52THUMBNAIL000891170.pdf.jpg000891170.pdf.jpgGenerated Thumbnailimage/jpeg1020http://www.lume.ufrgs.br/bitstream/10183/72922/3/000891170.pdf.jpgf4095b23072c4fc323ba11a650a4641aMD5310183/729222021-05-26 04:36:47.791553oai:www.lume.ufrgs.br:10183/72922Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532021-05-26T07:36:47Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Detecção visual de atividade de voz com base na movimentação labial |
dc.title.alternative.en.fl_str_mv |
Visual voice activity detection using as information the lips motion |
title |
Detecção visual de atividade de voz com base na movimentação labial |
spellingShingle |
Detecção visual de atividade de voz com base na movimentação labial Lopes, Carlos Bruno Oliveira Computação gráfica Informática médica Processamento de imagens Bayesian method Skin segmentation Lip segmentation Morphological operators Hidden markov model |
title_short |
Detecção visual de atividade de voz com base na movimentação labial |
title_full |
Detecção visual de atividade de voz com base na movimentação labial |
title_fullStr |
Detecção visual de atividade de voz com base na movimentação labial |
title_full_unstemmed |
Detecção visual de atividade de voz com base na movimentação labial |
title_sort |
Detecção visual de atividade de voz com base na movimentação labial |
author |
Lopes, Carlos Bruno Oliveira |
author_facet |
Lopes, Carlos Bruno Oliveira |
author_role |
author |
dc.contributor.author.fl_str_mv |
Lopes, Carlos Bruno Oliveira |
dc.contributor.advisor1.fl_str_mv |
Scharcanski, Jacob |
contributor_str_mv |
Scharcanski, Jacob |
dc.subject.por.fl_str_mv |
Computação gráfica Informática médica Processamento de imagens |
topic |
Computação gráfica Informática médica Processamento de imagens Bayesian method Skin segmentation Lip segmentation Morphological operators Hidden markov model |
dc.subject.eng.fl_str_mv |
Bayesian method Skin segmentation Lip segmentation Morphological operators Hidden markov model |
description |
O movimento dos lábios é um recurso visual relevante para a detecção da atividade de voz do locutor e para o reconhecimento da fala. Quando os lábios estão se movendo eles transmitem a idéia de ocorrências de diálogos (conversas ou períodos de fala) para o observador, enquanto que os períodos de silêncio podem ser representados pela ausência de movimentações dos lábios (boca fechada). Baseado nesta idéia, este trabalho foca esforços para detectar a movimentação de lábios e usá-la para realizar a detecção de atividade de voz. Primeiramente, é realizada a detecção de pele e a detecção de face para reduzir a área de extração dos lábios, sendo que as regiões mais prováveis de serem lábios são computadas usando a abordagem Bayesiana dentro da área delimitada. Então, a pré-segmentação dos lábios é obtida pela limiarização da região das probabilidades calculadas. A seguir, é localizada a região da boca pelo resultado obtido na pré-segmentação dos lábios, ou seja, alguns pixels que não são de lábios e foram detectados são eliminados, e em seguida são aplicados algumas operações morfológicas para incluir alguns pixels labiais e não labiais em torno da boca. Então, uma nova segmentação de lábios é realizada sobre a região da boca depois de aplicada uma transformação de cores para realçar a região a ser segmentada. Após a segmentação, é aplicado o fechamento das lacunas internas dos lábios segmentados. Finalmente, o movimento temporal dos lábios é explorado usando o modelo das cadeias ocultas de Markov (HMMs) para detectar as prováveis ocorrências de atividades de fala dentro de uma janela temporal. |
publishDate |
2013 |
dc.date.accessioned.fl_str_mv |
2013-07-02T01:43:40Z |
dc.date.issued.fl_str_mv |
2013 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/72922 |
dc.identifier.nrb.pt_BR.fl_str_mv |
000891170 |
url |
http://hdl.handle.net/10183/72922 |
identifier_str_mv |
000891170 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/72922/1/000891170.pdf http://www.lume.ufrgs.br/bitstream/10183/72922/2/000891170.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/72922/3/000891170.pdf.jpg |
bitstream.checksum.fl_str_mv |
8872530a012c11a67477ae6241cc3849 24ead1d2c0c155e4f4eb5de9730c8472 f4095b23072c4fc323ba11a650a4641a |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
_version_ |
1810085261115129856 |