Biometria multimodal baseada nos sinais de voz e facial

Detalhes bibliográficos
Autor(a) principal: Parada, M. G. O.
Data de Publicação: 2018
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da FEI
Texto Completo: https://repositorio.fei.edu.br/handle/FEI/309
Resumo: Um sistema biométrico consiste no uso de informações biológicas ou comportamentais para reconhecimento de indivíduos, aplicadas em propósitos de segurança, acesso automático e ciência forense. Sua confiabilidade depende diretamente da qualidade da captura dos dados e precisão da etapa de processamento de sinal, seja ela um sinal de áudio, vídeo, imagens ou outras sequências temporais. Um dos principais desafios é a captura do sinal para ser utilizado na etapa de reconhecimento, já que algumas modalidades biométricas podem ser comprometidas dependendo da influência de fatores externos. Por exemplo, um sistema de identificação por imagem pode falhar se a luz ambiente não for adequada durante a captura e o desempenho de um sistema de reconhecimento por voz pode ser severamente degradado na presença de ruído ambiente. Até mesmo o simples incorreto posicionamento do usuário perante a localização do sensor biométrico pode ser um fator prejudicial para o processamento das informações e, por este motivo, o uso de modalidades biométricas baseadas em múltiplas características biológicas ou comportamentais, conhecidas como multimodais, vêm sendo aplicadas de forma a conferir maior robustez ao sistema. Esta tese propõe a combinação de características de movimento da região facial, especificamente da região labial, através da aplicação da Transformada Discreta de Cossenos (DCT) aos vetores de movimento de um vídeo MPEG, em conjunto com características extraídas do sinal de voz, resultando em: um método para detecção de atividade de voz e remoção de silêncio; fusão de parâmetros extraídos do movimento e do áudio para finalidade de verificação automática de locutor; um método para extração da região labial baseado na média do movimento ao longo do tempo. A proposta faz uso de parâmetros já presentes em vídeo codificado em MPEG, eliminando a necessidade da etapa do cálculo dos parâmetros de movimento. Os testes biométricos foram realizados com uso da base de dados XM2VTS em diversas condições de relações de sinal-ruído no áudio e avaliados seguindo protocolo Lausanne. O desempenho do sistema foi comparado com diferentes propostas de biometria multimodal, obtendo resultados promissores para utilização em aplicações comerciais.
id FEI_b948346e07b1df873d483034af549844
oai_identifier_str oai:repositorio.fei.edu.br:FEI/309
network_acronym_str FEI
network_name_str Biblioteca Digital de Teses e Dissertações da FEI
repository_id_str
spelling Parada, M. G. O.Sanches, Ivandro2019-03-15T17:49:25Z2019-03-15T17:49:25Z2018PARADA, M. G. O. <b> Biometria multimodal baseada nos sinais de voz e facial. </b> 2018. 110 f. Tese (Doutorado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2018 Disponível em: <https://doi.org/10.31414/EE.2018.T.129721>. Acesso em: 17 jul. 2018.https://repositorio.fei.edu.br/handle/FEI/30910.31414/EE.2018.T.129721Um sistema biométrico consiste no uso de informações biológicas ou comportamentais para reconhecimento de indivíduos, aplicadas em propósitos de segurança, acesso automático e ciência forense. Sua confiabilidade depende diretamente da qualidade da captura dos dados e precisão da etapa de processamento de sinal, seja ela um sinal de áudio, vídeo, imagens ou outras sequências temporais. Um dos principais desafios é a captura do sinal para ser utilizado na etapa de reconhecimento, já que algumas modalidades biométricas podem ser comprometidas dependendo da influência de fatores externos. Por exemplo, um sistema de identificação por imagem pode falhar se a luz ambiente não for adequada durante a captura e o desempenho de um sistema de reconhecimento por voz pode ser severamente degradado na presença de ruído ambiente. Até mesmo o simples incorreto posicionamento do usuário perante a localização do sensor biométrico pode ser um fator prejudicial para o processamento das informações e, por este motivo, o uso de modalidades biométricas baseadas em múltiplas características biológicas ou comportamentais, conhecidas como multimodais, vêm sendo aplicadas de forma a conferir maior robustez ao sistema. Esta tese propõe a combinação de características de movimento da região facial, especificamente da região labial, através da aplicação da Transformada Discreta de Cossenos (DCT) aos vetores de movimento de um vídeo MPEG, em conjunto com características extraídas do sinal de voz, resultando em: um método para detecção de atividade de voz e remoção de silêncio; fusão de parâmetros extraídos do movimento e do áudio para finalidade de verificação automática de locutor; um método para extração da região labial baseado na média do movimento ao longo do tempo. A proposta faz uso de parâmetros já presentes em vídeo codificado em MPEG, eliminando a necessidade da etapa do cálculo dos parâmetros de movimento. Os testes biométricos foram realizados com uso da base de dados XM2VTS em diversas condições de relações de sinal-ruído no áudio e avaliados seguindo protocolo Lausanne. O desempenho do sistema foi comparado com diferentes propostas de biometria multimodal, obtendo resultados promissores para utilização em aplicações comerciais.A biometric system consists on the usage of biological or behavioural information for individual recognition being applied for security, automatic access and forensic science. Its reliability is directly related to the quality of the acquired data and precision of the signal processing, being the signal an audio, video, image or other time series. One of the major challenges is the acquisition of the signal to be used for recognition since some biometric modalities can be compromised depending on the influence of external factors. For example, an identification systema based on image can fail if the ambience light is not adequate during the capture, the performance of a voice based recognition system can be severely degraded in the presence of background noise, or even the simple incorrect positioning of the user in relation to the location of the biometric sensor can beharmful factor for the correct processing of the information. Therefore, biometric modalities based on multiple biological or behavioural information, known as multimodal biometrics, are being applied in order to provide greater robustness to the system. This thesis proposes the combination of motion features from the facial region, especially the lip region, with emplyment of the Discrete Cosine Transform (DCT) to the motion vectors of an MPEG video together with acoustic features, resulting in: a method for voice activity detection and silence removal; fused motion and audio features for automatic speaker verification; a method for lip region extraction based on the mean of the motion over time. The proposal makes use of parameters already present in MPEG encoded video, eliminating the need for the motion feature computation step. Teh biometric tests were performed with XM2VTS database under various signal-to-noise ratios in the audio and evaluated following the Lausanne protocol. The system performance was compared with different multimodal biometric proposals obraing promising results for use in commercial applicationsporpt_BRCentro Universitário FEI, São Bernardo do CampoBiometriaProgramação visual (Computação)Identificação da região labialBiometria multimodal baseada nos sinais de voz e facialinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Biblioteca Digital de Teses e Dissertações da FEIinstname:Centro Universitário da Fundação Educacional Inaciana (FEI)instacron:FEIinfo:eu-repo/semantics/openAccessORIGINALfulltext.pdfapplication/pdf5325767https://repositorio.fei.edu.br/bitstream/FEI/309/1/fulltext.pdfe1c08453906638a0d6065f6d9a2ca6ecMD51TEXTfulltext.pdf.txtfulltext.pdf.txtExtracted texttext/plain205713https://repositorio.fei.edu.br/bitstream/FEI/309/2/fulltext.pdf.txt2701102066297d893474d2a670d65da5MD52THUMBNAILfulltext.pdf.jpgfulltext.pdf.jpgGenerated Thumbnailimage/jpeg1109https://repositorio.fei.edu.br/bitstream/FEI/309/3/fulltext.pdf.jpg15e40445a17cc67d8572b151ee0769efMD53FEI/3092019-05-07 15:45:02.83Biblioteca Digital de Teses e Dissertaçõeshttp://sofia.fei.edu.br/pergamum/biblioteca/PRI
dc.title.pt_BR.fl_str_mv Biometria multimodal baseada nos sinais de voz e facial
title Biometria multimodal baseada nos sinais de voz e facial
spellingShingle Biometria multimodal baseada nos sinais de voz e facial
Parada, M. G. O.
Biometria
Programação visual (Computação)
Identificação da região labial
title_short Biometria multimodal baseada nos sinais de voz e facial
title_full Biometria multimodal baseada nos sinais de voz e facial
title_fullStr Biometria multimodal baseada nos sinais de voz e facial
title_full_unstemmed Biometria multimodal baseada nos sinais de voz e facial
title_sort Biometria multimodal baseada nos sinais de voz e facial
author Parada, M. G. O.
author_facet Parada, M. G. O.
author_role author
dc.contributor.author.fl_str_mv Parada, M. G. O.
dc.contributor.advisor1.fl_str_mv Sanches, Ivandro
contributor_str_mv Sanches, Ivandro
dc.subject.por.fl_str_mv Biometria
Programação visual (Computação)
Identificação da região labial
topic Biometria
Programação visual (Computação)
Identificação da região labial
description Um sistema biométrico consiste no uso de informações biológicas ou comportamentais para reconhecimento de indivíduos, aplicadas em propósitos de segurança, acesso automático e ciência forense. Sua confiabilidade depende diretamente da qualidade da captura dos dados e precisão da etapa de processamento de sinal, seja ela um sinal de áudio, vídeo, imagens ou outras sequências temporais. Um dos principais desafios é a captura do sinal para ser utilizado na etapa de reconhecimento, já que algumas modalidades biométricas podem ser comprometidas dependendo da influência de fatores externos. Por exemplo, um sistema de identificação por imagem pode falhar se a luz ambiente não for adequada durante a captura e o desempenho de um sistema de reconhecimento por voz pode ser severamente degradado na presença de ruído ambiente. Até mesmo o simples incorreto posicionamento do usuário perante a localização do sensor biométrico pode ser um fator prejudicial para o processamento das informações e, por este motivo, o uso de modalidades biométricas baseadas em múltiplas características biológicas ou comportamentais, conhecidas como multimodais, vêm sendo aplicadas de forma a conferir maior robustez ao sistema. Esta tese propõe a combinação de características de movimento da região facial, especificamente da região labial, através da aplicação da Transformada Discreta de Cossenos (DCT) aos vetores de movimento de um vídeo MPEG, em conjunto com características extraídas do sinal de voz, resultando em: um método para detecção de atividade de voz e remoção de silêncio; fusão de parâmetros extraídos do movimento e do áudio para finalidade de verificação automática de locutor; um método para extração da região labial baseado na média do movimento ao longo do tempo. A proposta faz uso de parâmetros já presentes em vídeo codificado em MPEG, eliminando a necessidade da etapa do cálculo dos parâmetros de movimento. Os testes biométricos foram realizados com uso da base de dados XM2VTS em diversas condições de relações de sinal-ruído no áudio e avaliados seguindo protocolo Lausanne. O desempenho do sistema foi comparado com diferentes propostas de biometria multimodal, obtendo resultados promissores para utilização em aplicações comerciais.
publishDate 2018
dc.date.issued.fl_str_mv 2018
dc.date.accessioned.fl_str_mv 2019-03-15T17:49:25Z
dc.date.available.fl_str_mv 2019-03-15T17:49:25Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv PARADA, M. G. O. <b> Biometria multimodal baseada nos sinais de voz e facial. </b> 2018. 110 f. Tese (Doutorado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2018 Disponível em: <https://doi.org/10.31414/EE.2018.T.129721>. Acesso em: 17 jul. 2018.
dc.identifier.uri.fl_str_mv https://repositorio.fei.edu.br/handle/FEI/309
dc.identifier.doi.none.fl_str_mv 10.31414/EE.2018.T.129721
identifier_str_mv PARADA, M. G. O. <b> Biometria multimodal baseada nos sinais de voz e facial. </b> 2018. 110 f. Tese (Doutorado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2018 Disponível em: <https://doi.org/10.31414/EE.2018.T.129721>. Acesso em: 17 jul. 2018.
10.31414/EE.2018.T.129721
url https://repositorio.fei.edu.br/handle/FEI/309
dc.language.iso.fl_str_mv por
pt_BR
language por
language_invalid_str_mv pt_BR
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Centro Universitário FEI, São Bernardo do Campo
publisher.none.fl_str_mv Centro Universitário FEI, São Bernardo do Campo
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da FEI
instname:Centro Universitário da Fundação Educacional Inaciana (FEI)
instacron:FEI
instname_str Centro Universitário da Fundação Educacional Inaciana (FEI)
instacron_str FEI
institution FEI
reponame_str Biblioteca Digital de Teses e Dissertações da FEI
collection Biblioteca Digital de Teses e Dissertações da FEI
bitstream.url.fl_str_mv https://repositorio.fei.edu.br/bitstream/FEI/309/1/fulltext.pdf
https://repositorio.fei.edu.br/bitstream/FEI/309/2/fulltext.pdf.txt
https://repositorio.fei.edu.br/bitstream/FEI/309/3/fulltext.pdf.jpg
bitstream.checksum.fl_str_mv e1c08453906638a0d6065f6d9a2ca6ec
2701102066297d893474d2a670d65da5
15e40445a17cc67d8572b151ee0769ef
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv
repository.mail.fl_str_mv
_version_ 1734750996279590912