Biometria multimodal baseada nos sinais de voz e facial

Parada, M. G. O.

Biometria multimodal baseada nos sinais de voz e facial

Detalhes bibliográficos
Autor(a) principal:	Parada, M. G. O.
Data de Publicação:	2018
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da FEI
Texto Completo:	https://repositorio.fei.edu.br/handle/FEI/309
Resumo:	Um sistema biométrico consiste no uso de informações biológicas ou comportamentais para reconhecimento de indivíduos, aplicadas em propósitos de segurança, acesso automático e ciência forense. Sua confiabilidade depende diretamente da qualidade da captura dos dados e precisão da etapa de processamento de sinal, seja ela um sinal de áudio, vídeo, imagens ou outras sequências temporais. Um dos principais desafios é a captura do sinal para ser utilizado na etapa de reconhecimento, já que algumas modalidades biométricas podem ser comprometidas dependendo da influência de fatores externos. Por exemplo, um sistema de identificação por imagem pode falhar se a luz ambiente não for adequada durante a captura e o desempenho de um sistema de reconhecimento por voz pode ser severamente degradado na presença de ruído ambiente. Até mesmo o simples incorreto posicionamento do usuário perante a localização do sensor biométrico pode ser um fator prejudicial para o processamento das informações e, por este motivo, o uso de modalidades biométricas baseadas em múltiplas características biológicas ou comportamentais, conhecidas como multimodais, vêm sendo aplicadas de forma a conferir maior robustez ao sistema. Esta tese propõe a combinação de características de movimento da região facial, especificamente da região labial, através da aplicação da Transformada Discreta de Cossenos (DCT) aos vetores de movimento de um vídeo MPEG, em conjunto com características extraídas do sinal de voz, resultando em: um método para detecção de atividade de voz e remoção de silêncio; fusão de parâmetros extraídos do movimento e do áudio para finalidade de verificação automática de locutor; um método para extração da região labial baseado na média do movimento ao longo do tempo. A proposta faz uso de parâmetros já presentes em vídeo codificado em MPEG, eliminando a necessidade da etapa do cálculo dos parâmetros de movimento. Os testes biométricos foram realizados com uso da base de dados XM2VTS em diversas condições de relações de sinal-ruído no áudio e avaliados seguindo protocolo Lausanne. O desempenho do sistema foi comparado com diferentes propostas de biometria multimodal, obtendo resultados promissores para utilização em aplicações comerciais.

Metadados do item

id	FEI_b948346e07b1df873d483034af549844
oai_identifier_str	oai:repositorio.fei.edu.br:FEI/309
network_acronym_str	FEI
network_name_str	Biblioteca Digital de Teses e Dissertações da FEI
repository_id_str
spelling	Parada, M. G. O.Sanches, Ivandro2019-03-15T17:49:25Z2019-03-15T17:49:25Z2018PARADA, M. G. O. <b> Biometria multimodal baseada nos sinais de voz e facial. </b> 2018. 110 f. Tese (Doutorado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2018 Disponível em: <https://doi.org/10.31414/EE.2018.T.129721>. Acesso em: 17 jul. 2018.https://repositorio.fei.edu.br/handle/FEI/30910.31414/EE.2018.T.129721Um sistema biométrico consiste no uso de informações biológicas ou comportamentais para reconhecimento de indivíduos, aplicadas em propósitos de segurança, acesso automático e ciência forense. Sua confiabilidade depende diretamente da qualidade da captura dos dados e precisão da etapa de processamento de sinal, seja ela um sinal de áudio, vídeo, imagens ou outras sequências temporais. Um dos principais desafios é a captura do sinal para ser utilizado na etapa de reconhecimento, já que algumas modalidades biométricas podem ser comprometidas dependendo da influência de fatores externos. Por exemplo, um sistema de identificação por imagem pode falhar se a luz ambiente não for adequada durante a captura e o desempenho de um sistema de reconhecimento por voz pode ser severamente degradado na presença de ruído ambiente. Até mesmo o simples incorreto posicionamento do usuário perante a localização do sensor biométrico pode ser um fator prejudicial para o processamento das informações e, por este motivo, o uso de modalidades biométricas baseadas em múltiplas características biológicas ou comportamentais, conhecidas como multimodais, vêm sendo aplicadas de forma a conferir maior robustez ao sistema. Esta tese propõe a combinação de características de movimento da região facial, especificamente da região labial, através da aplicação da Transformada Discreta de Cossenos (DCT) aos vetores de movimento de um vídeo MPEG, em conjunto com características extraídas do sinal de voz, resultando em: um método para detecção de atividade de voz e remoção de silêncio; fusão de parâmetros extraídos do movimento e do áudio para finalidade de verificação automática de locutor; um método para extração da região labial baseado na média do movimento ao longo do tempo. A proposta faz uso de parâmetros já presentes em vídeo codificado em MPEG, eliminando a necessidade da etapa do cálculo dos parâmetros de movimento. Os testes biométricos foram realizados com uso da base de dados XM2VTS em diversas condições de relações de sinal-ruído no áudio e avaliados seguindo protocolo Lausanne. O desempenho do sistema foi comparado com diferentes propostas de biometria multimodal, obtendo resultados promissores para utilização em aplicações comerciais.A biometric system consists on the usage of biological or behavioural information for individual recognition being applied for security, automatic access and forensic science. Its reliability is directly related to the quality of the acquired data and precision of the signal processing, being the signal an audio, video, image or other time series. One of the major challenges is the acquisition of the signal to be used for recognition since some biometric modalities can be compromised depending on the influence of external factors. For example, an identification systema based on image can fail if the ambience light is not adequate during the capture, the performance of a voice based recognition system can be severely degraded in the presence of background noise, or even the simple incorrect positioning of the user in relation to the location of the biometric sensor can beharmful factor for the correct processing of the information. Therefore, biometric modalities based on multiple biological or behavioural information, known as multimodal biometrics, are being applied in order to provide greater robustness to the system. This thesis proposes the combination of motion features from the facial region, especially the lip region, with emplyment of the Discrete Cosine Transform (DCT) to the motion vectors of an MPEG video together with acoustic features, resulting in: a method for voice activity detection and silence removal; fused motion and audio features for automatic speaker verification; a method for lip region extraction based on the mean of the motion over time. The proposal makes use of parameters already present in MPEG encoded video, eliminating the need for the motion feature computation step. Teh biometric tests were performed with XM2VTS database under various signal-to-noise ratios in the audio and evaluated following the Lausanne protocol. The system performance was compared with different multimodal biometric proposals obraing promising results for use in commercial applicationsporpt_BRCentro Universitário FEI, São Bernardo do CampoBiometriaProgramação visual (Computação)Identificação da região labialBiometria multimodal baseada nos sinais de voz e facialinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Biblioteca Digital de Teses e Dissertações da FEIinstname:Centro Universitário da Fundação Educacional Inaciana (FEI)instacron:FEIinfo:eu-repo/semantics/openAccessORIGINALfulltext.pdfapplication/pdf5325767https://repositorio.fei.edu.br/bitstream/FEI/309/1/fulltext.pdfe1c08453906638a0d6065f6d9a2ca6ecMD51TEXTfulltext.pdf.txtfulltext.pdf.txtExtracted texttext/plain205713https://repositorio.fei.edu.br/bitstream/FEI/309/2/fulltext.pdf.txt2701102066297d893474d2a670d65da5MD52THUMBNAILfulltext.pdf.jpgfulltext.pdf.jpgGenerated Thumbnailimage/jpeg1109https://repositorio.fei.edu.br/bitstream/FEI/309/3/fulltext.pdf.jpg15e40445a17cc67d8572b151ee0769efMD53FEI/3092019-05-07 15:45:02.83Biblioteca Digital de Teses e Dissertaçõeshttp://sofia.fei.edu.br/pergamum/biblioteca/PRI
dc.title.pt_BR.fl_str_mv	Biometria multimodal baseada nos sinais de voz e facial
title	Biometria multimodal baseada nos sinais de voz e facial
spellingShingle	Biometria multimodal baseada nos sinais de voz e facial Parada, M. G. O. Biometria Programação visual (Computação) Identificação da região labial
title_short	Biometria multimodal baseada nos sinais de voz e facial
title_full	Biometria multimodal baseada nos sinais de voz e facial
title_fullStr	Biometria multimodal baseada nos sinais de voz e facial
title_full_unstemmed	Biometria multimodal baseada nos sinais de voz e facial
title_sort	Biometria multimodal baseada nos sinais de voz e facial
author	Parada, M. G. O.
author_facet	Parada, M. G. O.
author_role	author
dc.contributor.author.fl_str_mv	Parada, M. G. O.
dc.contributor.advisor1.fl_str_mv	Sanches, Ivandro
contributor_str_mv	Sanches, Ivandro
dc.subject.por.fl_str_mv	Biometria Programação visual (Computação) Identificação da região labial
topic	Biometria Programação visual (Computação) Identificação da região labial
description	Um sistema biométrico consiste no uso de informações biológicas ou comportamentais para reconhecimento de indivíduos, aplicadas em propósitos de segurança, acesso automático e ciência forense. Sua confiabilidade depende diretamente da qualidade da captura dos dados e precisão da etapa de processamento de sinal, seja ela um sinal de áudio, vídeo, imagens ou outras sequências temporais. Um dos principais desafios é a captura do sinal para ser utilizado na etapa de reconhecimento, já que algumas modalidades biométricas podem ser comprometidas dependendo da influência de fatores externos. Por exemplo, um sistema de identificação por imagem pode falhar se a luz ambiente não for adequada durante a captura e o desempenho de um sistema de reconhecimento por voz pode ser severamente degradado na presença de ruído ambiente. Até mesmo o simples incorreto posicionamento do usuário perante a localização do sensor biométrico pode ser um fator prejudicial para o processamento das informações e, por este motivo, o uso de modalidades biométricas baseadas em múltiplas características biológicas ou comportamentais, conhecidas como multimodais, vêm sendo aplicadas de forma a conferir maior robustez ao sistema. Esta tese propõe a combinação de características de movimento da região facial, especificamente da região labial, através da aplicação da Transformada Discreta de Cossenos (DCT) aos vetores de movimento de um vídeo MPEG, em conjunto com características extraídas do sinal de voz, resultando em: um método para detecção de atividade de voz e remoção de silêncio; fusão de parâmetros extraídos do movimento e do áudio para finalidade de verificação automática de locutor; um método para extração da região labial baseado na média do movimento ao longo do tempo. A proposta faz uso de parâmetros já presentes em vídeo codificado em MPEG, eliminando a necessidade da etapa do cálculo dos parâmetros de movimento. Os testes biométricos foram realizados com uso da base de dados XM2VTS em diversas condições de relações de sinal-ruído no áudio e avaliados seguindo protocolo Lausanne. O desempenho do sistema foi comparado com diferentes propostas de biometria multimodal, obtendo resultados promissores para utilização em aplicações comerciais.
publishDate	2018
dc.date.issued.fl_str_mv	2018
dc.date.accessioned.fl_str_mv	2019-03-15T17:49:25Z
dc.date.available.fl_str_mv	2019-03-15T17:49:25Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	PARADA, M. G. O. <b> Biometria multimodal baseada nos sinais de voz e facial. </b> 2018. 110 f. Tese (Doutorado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2018 Disponível em: <https://doi.org/10.31414/EE.2018.T.129721>. Acesso em: 17 jul. 2018.
dc.identifier.uri.fl_str_mv	https://repositorio.fei.edu.br/handle/FEI/309
dc.identifier.doi.none.fl_str_mv	10.31414/EE.2018.T.129721
identifier_str_mv	PARADA, M. G. O. <b> Biometria multimodal baseada nos sinais de voz e facial. </b> 2018. 110 f. Tese (Doutorado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2018 Disponível em: <https://doi.org/10.31414/EE.2018.T.129721>. Acesso em: 17 jul. 2018. 10.31414/EE.2018.T.129721
url	https://repositorio.fei.edu.br/handle/FEI/309
dc.language.iso.fl_str_mv	por pt_BR
language	por
language_invalid_str_mv	pt_BR
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Centro Universitário FEI, São Bernardo do Campo
publisher.none.fl_str_mv	Centro Universitário FEI, São Bernardo do Campo
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da FEI instname:Centro Universitário da Fundação Educacional Inaciana (FEI) instacron:FEI
instname_str	Centro Universitário da Fundação Educacional Inaciana (FEI)
instacron_str	FEI
institution	FEI
reponame_str	Biblioteca Digital de Teses e Dissertações da FEI
collection	Biblioteca Digital de Teses e Dissertações da FEI
bitstream.url.fl_str_mv	https://repositorio.fei.edu.br/bitstream/FEI/309/1/fulltext.pdf https://repositorio.fei.edu.br/bitstream/FEI/309/2/fulltext.pdf.txt https://repositorio.fei.edu.br/bitstream/FEI/309/3/fulltext.pdf.jpg
bitstream.checksum.fl_str_mv	e1c08453906638a0d6065f6d9a2ca6ec 2701102066297d893474d2a670d65da5 15e40445a17cc67d8572b151ee0769ef
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv
repository.mail.fl_str_mv
_version_	1734750996279590912

Biometria multimodal baseada nos sinais de voz e facial

Registros relacionados