Detecção visual de atividade de voz com base na movimentação labial

Detalhes bibliográficos
Autor(a) principal: Lopes, Carlos Bruno Oliveira
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/72922
Resumo: O movimento dos lábios é um recurso visual relevante para a detecção da atividade de voz do locutor e para o reconhecimento da fala. Quando os lábios estão se movendo eles transmitem a idéia de ocorrências de diálogos (conversas ou períodos de fala) para o observador, enquanto que os períodos de silêncio podem ser representados pela ausência de movimentações dos lábios (boca fechada). Baseado nesta idéia, este trabalho foca esforços para detectar a movimentação de lábios e usá-la para realizar a detecção de atividade de voz. Primeiramente, é realizada a detecção de pele e a detecção de face para reduzir a área de extração dos lábios, sendo que as regiões mais prováveis de serem lábios são computadas usando a abordagem Bayesiana dentro da área delimitada. Então, a pré-segmentação dos lábios é obtida pela limiarização da região das probabilidades calculadas. A seguir, é localizada a região da boca pelo resultado obtido na pré-segmentação dos lábios, ou seja, alguns pixels que não são de lábios e foram detectados são eliminados, e em seguida são aplicados algumas operações morfológicas para incluir alguns pixels labiais e não labiais em torno da boca. Então, uma nova segmentação de lábios é realizada sobre a região da boca depois de aplicada uma transformação de cores para realçar a região a ser segmentada. Após a segmentação, é aplicado o fechamento das lacunas internas dos lábios segmentados. Finalmente, o movimento temporal dos lábios é explorado usando o modelo das cadeias ocultas de Markov (HMMs) para detectar as prováveis ocorrências de atividades de fala dentro de uma janela temporal.
id URGS_f78abfbb7a0856da02125addcec9e12d
oai_identifier_str oai:www.lume.ufrgs.br:10183/72922
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Lopes, Carlos Bruno OliveiraScharcanski, Jacob2013-07-02T01:43:40Z2013http://hdl.handle.net/10183/72922000891170O movimento dos lábios é um recurso visual relevante para a detecção da atividade de voz do locutor e para o reconhecimento da fala. Quando os lábios estão se movendo eles transmitem a idéia de ocorrências de diálogos (conversas ou períodos de fala) para o observador, enquanto que os períodos de silêncio podem ser representados pela ausência de movimentações dos lábios (boca fechada). Baseado nesta idéia, este trabalho foca esforços para detectar a movimentação de lábios e usá-la para realizar a detecção de atividade de voz. Primeiramente, é realizada a detecção de pele e a detecção de face para reduzir a área de extração dos lábios, sendo que as regiões mais prováveis de serem lábios são computadas usando a abordagem Bayesiana dentro da área delimitada. Então, a pré-segmentação dos lábios é obtida pela limiarização da região das probabilidades calculadas. A seguir, é localizada a região da boca pelo resultado obtido na pré-segmentação dos lábios, ou seja, alguns pixels que não são de lábios e foram detectados são eliminados, e em seguida são aplicados algumas operações morfológicas para incluir alguns pixels labiais e não labiais em torno da boca. Então, uma nova segmentação de lábios é realizada sobre a região da boca depois de aplicada uma transformação de cores para realçar a região a ser segmentada. Após a segmentação, é aplicado o fechamento das lacunas internas dos lábios segmentados. Finalmente, o movimento temporal dos lábios é explorado usando o modelo das cadeias ocultas de Markov (HMMs) para detectar as prováveis ocorrências de atividades de fala dentro de uma janela temporal.Lips motion are relevant visual feature for detecting the voice active of speaker and speech recognition. When the lips are moving, they carries an idea of occurrence of dialogues (talk) or periods of speeches to the watcher, whereas the periods of silences may be represented by the absence of lips motion (mouth closed). Based on this idea, this work focus efforts to obtain the lips motion as features and to perform visual voice activity detection. First, the algorithm performs skin segmentation and face detection to reduce the search area for lip extraction, and the most likely lip regions are computed using a Bayesian approach within the delimited area. Then, the pre-segmentation of the lips is obtained by thresholding the calculated probability region. After, it is localized the mouth region by resulted obtained in pre-segmentation of the lips, i.e., some nonlips pixels detected are eliminated, and it are applied a simple morphological operators to include some lips pixels and non-lips around the mouth. Thus, a new segmentation of lips is performed over mouth region after transformation of color to enhance the region to be segmented. And, is applied the closing of gaps internal of lips segmented. Finally, the temporal motion of the lips is explored using Hidden Markov Models (HMMs) to detect the likely occurrence of active speech within a temporal window.application/pdfporComputação gráficaInformática médicaProcessamento de imagensBayesian methodSkin segmentationLip segmentationMorphological operatorsHidden markov modelDetecção visual de atividade de voz com base na movimentação labialVisual voice activity detection using as information the lips motion info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2013mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000891170.pdf000891170.pdfTexto completoapplication/pdf3511836http://www.lume.ufrgs.br/bitstream/10183/72922/1/000891170.pdf8872530a012c11a67477ae6241cc3849MD51TEXT000891170.pdf.txt000891170.pdf.txtExtracted Texttext/plain146725http://www.lume.ufrgs.br/bitstream/10183/72922/2/000891170.pdf.txt24ead1d2c0c155e4f4eb5de9730c8472MD52THUMBNAIL000891170.pdf.jpg000891170.pdf.jpgGenerated Thumbnailimage/jpeg1020http://www.lume.ufrgs.br/bitstream/10183/72922/3/000891170.pdf.jpgf4095b23072c4fc323ba11a650a4641aMD5310183/729222021-05-26 04:36:47.791553oai:www.lume.ufrgs.br:10183/72922Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532021-05-26T07:36:47Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Detecção visual de atividade de voz com base na movimentação labial
dc.title.alternative.en.fl_str_mv Visual voice activity detection using as information the lips motion
title Detecção visual de atividade de voz com base na movimentação labial
spellingShingle Detecção visual de atividade de voz com base na movimentação labial
Lopes, Carlos Bruno Oliveira
Computação gráfica
Informática médica
Processamento de imagens
Bayesian method
Skin segmentation
Lip segmentation
Morphological operators
Hidden markov model
title_short Detecção visual de atividade de voz com base na movimentação labial
title_full Detecção visual de atividade de voz com base na movimentação labial
title_fullStr Detecção visual de atividade de voz com base na movimentação labial
title_full_unstemmed Detecção visual de atividade de voz com base na movimentação labial
title_sort Detecção visual de atividade de voz com base na movimentação labial
author Lopes, Carlos Bruno Oliveira
author_facet Lopes, Carlos Bruno Oliveira
author_role author
dc.contributor.author.fl_str_mv Lopes, Carlos Bruno Oliveira
dc.contributor.advisor1.fl_str_mv Scharcanski, Jacob
contributor_str_mv Scharcanski, Jacob
dc.subject.por.fl_str_mv Computação gráfica
Informática médica
Processamento de imagens
topic Computação gráfica
Informática médica
Processamento de imagens
Bayesian method
Skin segmentation
Lip segmentation
Morphological operators
Hidden markov model
dc.subject.eng.fl_str_mv Bayesian method
Skin segmentation
Lip segmentation
Morphological operators
Hidden markov model
description O movimento dos lábios é um recurso visual relevante para a detecção da atividade de voz do locutor e para o reconhecimento da fala. Quando os lábios estão se movendo eles transmitem a idéia de ocorrências de diálogos (conversas ou períodos de fala) para o observador, enquanto que os períodos de silêncio podem ser representados pela ausência de movimentações dos lábios (boca fechada). Baseado nesta idéia, este trabalho foca esforços para detectar a movimentação de lábios e usá-la para realizar a detecção de atividade de voz. Primeiramente, é realizada a detecção de pele e a detecção de face para reduzir a área de extração dos lábios, sendo que as regiões mais prováveis de serem lábios são computadas usando a abordagem Bayesiana dentro da área delimitada. Então, a pré-segmentação dos lábios é obtida pela limiarização da região das probabilidades calculadas. A seguir, é localizada a região da boca pelo resultado obtido na pré-segmentação dos lábios, ou seja, alguns pixels que não são de lábios e foram detectados são eliminados, e em seguida são aplicados algumas operações morfológicas para incluir alguns pixels labiais e não labiais em torno da boca. Então, uma nova segmentação de lábios é realizada sobre a região da boca depois de aplicada uma transformação de cores para realçar a região a ser segmentada. Após a segmentação, é aplicado o fechamento das lacunas internas dos lábios segmentados. Finalmente, o movimento temporal dos lábios é explorado usando o modelo das cadeias ocultas de Markov (HMMs) para detectar as prováveis ocorrências de atividades de fala dentro de uma janela temporal.
publishDate 2013
dc.date.accessioned.fl_str_mv 2013-07-02T01:43:40Z
dc.date.issued.fl_str_mv 2013
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/72922
dc.identifier.nrb.pt_BR.fl_str_mv 000891170
url http://hdl.handle.net/10183/72922
identifier_str_mv 000891170
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/72922/1/000891170.pdf
http://www.lume.ufrgs.br/bitstream/10183/72922/2/000891170.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/72922/3/000891170.pdf.jpg
bitstream.checksum.fl_str_mv 8872530a012c11a67477ae6241cc3849
24ead1d2c0c155e4f4eb5de9730c8472
f4095b23072c4fc323ba11a650a4641a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085261115129856