Biometria multimodal baseada nos sinais de voz e facial

Detalhes bibliográficos
Autor(a) principal: Parada, M. G. O.
Data de Publicação: 2018
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da FEI
Texto Completo: https://repositorio.fei.edu.br/handle/FEI/309
Resumo: Um sistema biométrico consiste no uso de informações biológicas ou comportamentais para reconhecimento de indivíduos, aplicadas em propósitos de segurança, acesso automático e ciência forense. Sua confiabilidade depende diretamente da qualidade da captura dos dados e precisão da etapa de processamento de sinal, seja ela um sinal de áudio, vídeo, imagens ou outras sequências temporais. Um dos principais desafios é a captura do sinal para ser utilizado na etapa de reconhecimento, já que algumas modalidades biométricas podem ser comprometidas dependendo da influência de fatores externos. Por exemplo, um sistema de identificação por imagem pode falhar se a luz ambiente não for adequada durante a captura e o desempenho de um sistema de reconhecimento por voz pode ser severamente degradado na presença de ruído ambiente. Até mesmo o simples incorreto posicionamento do usuário perante a localização do sensor biométrico pode ser um fator prejudicial para o processamento das informações e, por este motivo, o uso de modalidades biométricas baseadas em múltiplas características biológicas ou comportamentais, conhecidas como multimodais, vêm sendo aplicadas de forma a conferir maior robustez ao sistema. Esta tese propõe a combinação de características de movimento da região facial, especificamente da região labial, através da aplicação da Transformada Discreta de Cossenos (DCT) aos vetores de movimento de um vídeo MPEG, em conjunto com características extraídas do sinal de voz, resultando em: um método para detecção de atividade de voz e remoção de silêncio; fusão de parâmetros extraídos do movimento e do áudio para finalidade de verificação automática de locutor; um método para extração da região labial baseado na média do movimento ao longo do tempo. A proposta faz uso de parâmetros já presentes em vídeo codificado em MPEG, eliminando a necessidade da etapa do cálculo dos parâmetros de movimento. Os testes biométricos foram realizados com uso da base de dados XM2VTS em diversas condições de relações de sinal-ruído no áudio e avaliados seguindo protocolo Lausanne. O desempenho do sistema foi comparado com diferentes propostas de biometria multimodal, obtendo resultados promissores para utilização em aplicações comerciais.
id FEI_6ae1956cd426c573e772ba88ce6580e4
oai_identifier_str oai:repositorio.fei.edu.br:FEI/309
network_acronym_str FEI
network_name_str Biblioteca Digital de Teses e Dissertações da FEI
repository_id_str https://repositorio.fei.edu.br/oai/request
spelling Biometria multimodal baseada nos sinais de voz e facialBiometriaProgramação visual (Computação)Identificação da região labialUm sistema biométrico consiste no uso de informações biológicas ou comportamentais para reconhecimento de indivíduos, aplicadas em propósitos de segurança, acesso automático e ciência forense. Sua confiabilidade depende diretamente da qualidade da captura dos dados e precisão da etapa de processamento de sinal, seja ela um sinal de áudio, vídeo, imagens ou outras sequências temporais. Um dos principais desafios é a captura do sinal para ser utilizado na etapa de reconhecimento, já que algumas modalidades biométricas podem ser comprometidas dependendo da influência de fatores externos. Por exemplo, um sistema de identificação por imagem pode falhar se a luz ambiente não for adequada durante a captura e o desempenho de um sistema de reconhecimento por voz pode ser severamente degradado na presença de ruído ambiente. Até mesmo o simples incorreto posicionamento do usuário perante a localização do sensor biométrico pode ser um fator prejudicial para o processamento das informações e, por este motivo, o uso de modalidades biométricas baseadas em múltiplas características biológicas ou comportamentais, conhecidas como multimodais, vêm sendo aplicadas de forma a conferir maior robustez ao sistema. Esta tese propõe a combinação de características de movimento da região facial, especificamente da região labial, através da aplicação da Transformada Discreta de Cossenos (DCT) aos vetores de movimento de um vídeo MPEG, em conjunto com características extraídas do sinal de voz, resultando em: um método para detecção de atividade de voz e remoção de silêncio; fusão de parâmetros extraídos do movimento e do áudio para finalidade de verificação automática de locutor; um método para extração da região labial baseado na média do movimento ao longo do tempo. A proposta faz uso de parâmetros já presentes em vídeo codificado em MPEG, eliminando a necessidade da etapa do cálculo dos parâmetros de movimento. Os testes biométricos foram realizados com uso da base de dados XM2VTS em diversas condições de relações de sinal-ruído no áudio e avaliados seguindo protocolo Lausanne. O desempenho do sistema foi comparado com diferentes propostas de biometria multimodal, obtendo resultados promissores para utilização em aplicações comerciais.A biometric system consists on the usage of biological or behavioural information for individual recognition being applied for security, automatic access and forensic science. Its reliability is directly related to the quality of the acquired data and precision of the signal processing, being the signal an audio, video, image or other time series. One of the major challenges is the acquisition of the signal to be used for recognition since some biometric modalities can be compromised depending on the influence of external factors. For example, an identification systema based on image can fail if the ambience light is not adequate during the capture, the performance of a voice based recognition system can be severely degraded in the presence of background noise, or even the simple incorrect positioning of the user in relation to the location of the biometric sensor can beharmful factor for the correct processing of the information. Therefore, biometric modalities based on multiple biological or behavioural information, known as multimodal biometrics, are being applied in order to provide greater robustness to the system. This thesis proposes the combination of motion features from the facial region, especially the lip region, with emplyment of the Discrete Cosine Transform (DCT) to the motion vectors of an MPEG video together with acoustic features, resulting in: a method for voice activity detection and silence removal; fused motion and audio features for automatic speaker verification; a method for lip region extraction based on the mean of the motion over time. The proposal makes use of parameters already present in MPEG encoded video, eliminating the need for the motion feature computation step. Teh biometric tests were performed with XM2VTS database under various signal-to-noise ratios in the audio and evaluated following the Lausanne protocol. The system performance was compared with different multimodal biometric proposals obraing promising results for use in commercial applicationsCentro Universitário FEI, São Bernardo do CampoSanches, IvandroParada, M. G. O.2019-03-15T17:49:25Z2019-03-15T17:49:25Z2018info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfPARADA, M. G. O. <b> Biometria multimodal baseada nos sinais de voz e facial. </b> 2018. 110 f. Tese (Doutorado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2018 Disponível em: <https://doi.org/10.31414/EE.2018.T.129721>. Acesso em: 17 jul. 2018.10.31414/EE.2018.T.129721https://repositorio.fei.edu.br/handle/FEI/309porpt_BRreponame:Biblioteca Digital de Teses e Dissertações da FEIinstname:Centro Universitário da Fundação Educacional Inaciana (FEI)instacron:FEIinfo:eu-repo/semantics/openAccess2023-03-14T13:08:45Zoai:repositorio.fei.edu.br:FEI/309Biblioteca Digital de Teses e Dissertaçõeshttp://sofia.fei.edu.br/pergamum/biblioteca/PRIhttp://sofia.fei.edu.br/pergamum/oai/oai2.phpcfernandes@fei.edu.bropendoar:https://repositorio.fei.edu.br/oai/request2023-03-14T13:08:45Biblioteca Digital de Teses e Dissertações da FEI - Centro Universitário da Fundação Educacional Inaciana (FEI)false
dc.title.none.fl_str_mv Biometria multimodal baseada nos sinais de voz e facial
title Biometria multimodal baseada nos sinais de voz e facial
spellingShingle Biometria multimodal baseada nos sinais de voz e facial
Parada, M. G. O.
Biometria
Programação visual (Computação)
Identificação da região labial
title_short Biometria multimodal baseada nos sinais de voz e facial
title_full Biometria multimodal baseada nos sinais de voz e facial
title_fullStr Biometria multimodal baseada nos sinais de voz e facial
title_full_unstemmed Biometria multimodal baseada nos sinais de voz e facial
title_sort Biometria multimodal baseada nos sinais de voz e facial
author Parada, M. G. O.
author_facet Parada, M. G. O.
author_role author
dc.contributor.none.fl_str_mv Sanches, Ivandro
dc.contributor.author.fl_str_mv Parada, M. G. O.
dc.subject.por.fl_str_mv Biometria
Programação visual (Computação)
Identificação da região labial
topic Biometria
Programação visual (Computação)
Identificação da região labial
description Um sistema biométrico consiste no uso de informações biológicas ou comportamentais para reconhecimento de indivíduos, aplicadas em propósitos de segurança, acesso automático e ciência forense. Sua confiabilidade depende diretamente da qualidade da captura dos dados e precisão da etapa de processamento de sinal, seja ela um sinal de áudio, vídeo, imagens ou outras sequências temporais. Um dos principais desafios é a captura do sinal para ser utilizado na etapa de reconhecimento, já que algumas modalidades biométricas podem ser comprometidas dependendo da influência de fatores externos. Por exemplo, um sistema de identificação por imagem pode falhar se a luz ambiente não for adequada durante a captura e o desempenho de um sistema de reconhecimento por voz pode ser severamente degradado na presença de ruído ambiente. Até mesmo o simples incorreto posicionamento do usuário perante a localização do sensor biométrico pode ser um fator prejudicial para o processamento das informações e, por este motivo, o uso de modalidades biométricas baseadas em múltiplas características biológicas ou comportamentais, conhecidas como multimodais, vêm sendo aplicadas de forma a conferir maior robustez ao sistema. Esta tese propõe a combinação de características de movimento da região facial, especificamente da região labial, através da aplicação da Transformada Discreta de Cossenos (DCT) aos vetores de movimento de um vídeo MPEG, em conjunto com características extraídas do sinal de voz, resultando em: um método para detecção de atividade de voz e remoção de silêncio; fusão de parâmetros extraídos do movimento e do áudio para finalidade de verificação automática de locutor; um método para extração da região labial baseado na média do movimento ao longo do tempo. A proposta faz uso de parâmetros já presentes em vídeo codificado em MPEG, eliminando a necessidade da etapa do cálculo dos parâmetros de movimento. Os testes biométricos foram realizados com uso da base de dados XM2VTS em diversas condições de relações de sinal-ruído no áudio e avaliados seguindo protocolo Lausanne. O desempenho do sistema foi comparado com diferentes propostas de biometria multimodal, obtendo resultados promissores para utilização em aplicações comerciais.
publishDate 2018
dc.date.none.fl_str_mv 2018
2019-03-15T17:49:25Z
2019-03-15T17:49:25Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv PARADA, M. G. O. <b> Biometria multimodal baseada nos sinais de voz e facial. </b> 2018. 110 f. Tese (Doutorado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2018 Disponível em: <https://doi.org/10.31414/EE.2018.T.129721>. Acesso em: 17 jul. 2018.
10.31414/EE.2018.T.129721
https://repositorio.fei.edu.br/handle/FEI/309
identifier_str_mv PARADA, M. G. O. <b> Biometria multimodal baseada nos sinais de voz e facial. </b> 2018. 110 f. Tese (Doutorado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2018 Disponível em: <https://doi.org/10.31414/EE.2018.T.129721>. Acesso em: 17 jul. 2018.
10.31414/EE.2018.T.129721
url https://repositorio.fei.edu.br/handle/FEI/309
dc.language.iso.fl_str_mv por
pt_BR
language por
language_invalid_str_mv pt_BR
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Centro Universitário FEI, São Bernardo do Campo
publisher.none.fl_str_mv Centro Universitário FEI, São Bernardo do Campo
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da FEI
instname:Centro Universitário da Fundação Educacional Inaciana (FEI)
instacron:FEI
instname_str Centro Universitário da Fundação Educacional Inaciana (FEI)
instacron_str FEI
institution FEI
reponame_str Biblioteca Digital de Teses e Dissertações da FEI
collection Biblioteca Digital de Teses e Dissertações da FEI
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da FEI - Centro Universitário da Fundação Educacional Inaciana (FEI)
repository.mail.fl_str_mv cfernandes@fei.edu.br
_version_ 1809225181234724864