Identificação de atividade de voz baseada em vídeo

Scott, Dario

Identificação de atividade de voz baseada em vídeo

Detalhes bibliográficos
Autor(a) principal:	Scott, Dario
Data de Publicação:	2010
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
Texto Completo:	http://www.repositorio.jesuita.org.br/handle/UNISINOS/2285
Resumo:	Atualmente, existem diversos trabalhos com as mais variadas abordagens relativas ao processamento de imagens digitais para detecção de atividade de voz (VAD). As suas aplicações perpassam diferentes áreas, como por exemplo, comandos de voz em veículos e videoconferência. A motivação deste trabalho constitui-se na construção de um algoritmo que contribua para o aperfeiçoamento das técnicas de processamento de imagens aplicadas para a detecção de atividade de voz em vídeos. A problemática envolvida já apresenta uma grande diversidade de abordagens. No entanto, o foco deste trabalho situa-se na busca de alternativas para a melhoria na extração de um modelo de cor de pele e não-pele e, a partir daí, extrair um classificador para identificar a atividade de fala com mais precisão. Algoritmos já existentes de identificação de face e de classificação dos lábios foram utilizados e aprimorados. Através da criação de patches abaixo dos olhos, foi criado um modelo para determinar as características individuais de cor de

Metadados do item

id	USIN_bdd22d88e3946812c3b116ce61a915e9
oai_identifier_str	oai:www.repositorio.jesuita.org.br:UNISINOS/2285
network_acronym_str	USIN
network_name_str	Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
repository_id_str
spelling	2015-03-05T14:01:22Z2015-03-05T14:01:22Z2010-03-30Made available in DSpace on 2015-03-05T14:01:22Z (GMT). No. of bitstreams: 0 Previous issue date: 30Atualmente, existem diversos trabalhos com as mais variadas abordagens relativas ao processamento de imagens digitais para detecção de atividade de voz (VAD). As suas aplicações perpassam diferentes áreas, como por exemplo, comandos de voz em veículos e videoconferência. A motivação deste trabalho constitui-se na construção de um algoritmo que contribua para o aperfeiçoamento das técnicas de processamento de imagens aplicadas para a detecção de atividade de voz em vídeos. A problemática envolvida já apresenta uma grande diversidade de abordagens. No entanto, o foco deste trabalho situa-se na busca de alternativas para a melhoria na extração de um modelo de cor de pele e não-pele e, a partir daí, extrair um classificador para identificar a atividade de fala com mais precisão. Algoritmos já existentes de identificação de face e de classificação dos lábios foram utilizados e aprimorados. Através da criação de patches abaixo dos olhos, foi criado um modelo para determinar as características individuais de cor deCurrently, there are several works with many di_erent approaches to image processing for detection of voice activity (VAD). Its applications cross over di_erent areas, such as voice commands in vehicles and videoconferencing. The motivation of this work consists in building an algorithm that contributes to the improvement of techniques image processing applied to detect voice activity on video. The issue already presents a great diversity of approaches. However, the focus of this work lies in _nding alternatives to improve the extraction of a skin and non-skin color model and, from there, extract a classi_er to identify the activity of speech more accurately. Existing algorithms of face detection and classi_cation of the lips were used and improved. Through the creation of patches under the eyes, a model was created to determine the individual characteristics of skin color using the mean and standard deviation of the pixels of the patches and the mouth area. The results are presented based on two approaches.Hewlett-Packard Brasil LtdaScott, Dariohttp://lattes.cnpq.br/0234951091078070http://lattes.cnpq.br/8408262156304669Villamil, Marta BeckerUniversidade do Vale do Rio do SinosPrograma de Pós-Graduação em Computação AplicadaUNISINOSBrasilEscola PolitécnicaIdentificação de atividade de voz baseada em vídeoCiências Exatas e da Terradetecção de falamodelo de cor de peleprocessamento de imagemimage processingskin color modelvoice activity detectioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://www.repositorio.jesuita.org.br/handle/UNISINOS/2285info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)instname:Universidade do Vale do Rio dos Sinos (UNISINOS)instacron:UNISINOSORIGINALDarioScottComputacaoAplicada.pdfDarioScottComputacaoAplicada.pdfapplication/pdf1642240http://repositorio.jesuita.org.br/bitstream/UNISINOS/2285/1/DarioScottComputacaoAplicada.pdf6c2b915e4cb8a887e758ee8a469d09e8MD51UNISINOS/22852015-03-12 16:21:23.903oai:www.repositorio.jesuita.org.br:UNISINOS/2285Biblioteca Digital de Teses e Dissertaçõeshttp://www.repositorio.jesuita.org.br/oai/requestopendoar:2015-03-12T19:21:23Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)false
dc.title.pt_BR.fl_str_mv	Identificação de atividade de voz baseada em vídeo
title	Identificação de atividade de voz baseada em vídeo
spellingShingle	Identificação de atividade de voz baseada em vídeo Scott, Dario Ciências Exatas e da Terra detecção de fala modelo de cor de pele processamento de imagem image processing skin color model voice activity detection
title_short	Identificação de atividade de voz baseada em vídeo
title_full	Identificação de atividade de voz baseada em vídeo
title_fullStr	Identificação de atividade de voz baseada em vídeo
title_full_unstemmed	Identificação de atividade de voz baseada em vídeo
title_sort	Identificação de atividade de voz baseada em vídeo
author	Scott, Dario
author_facet	Scott, Dario
author_role	author
dc.contributor.authorLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/0234951091078070
dc.contributor.advisorLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/8408262156304669
dc.contributor.author.fl_str_mv	Scott, Dario
dc.contributor.advisor1.fl_str_mv	Villamil, Marta Becker
contributor_str_mv	Villamil, Marta Becker
dc.subject.cnpq.fl_str_mv	Ciências Exatas e da Terra
topic	Ciências Exatas e da Terra detecção de fala modelo de cor de pele processamento de imagem image processing skin color model voice activity detection
dc.subject.por.fl_str_mv	detecção de fala modelo de cor de pele processamento de imagem
dc.subject.eng.fl_str_mv	image processing skin color model voice activity detection
description	Atualmente, existem diversos trabalhos com as mais variadas abordagens relativas ao processamento de imagens digitais para detecção de atividade de voz (VAD). As suas aplicações perpassam diferentes áreas, como por exemplo, comandos de voz em veículos e videoconferência. A motivação deste trabalho constitui-se na construção de um algoritmo que contribua para o aperfeiçoamento das técnicas de processamento de imagens aplicadas para a detecção de atividade de voz em vídeos. A problemática envolvida já apresenta uma grande diversidade de abordagens. No entanto, o foco deste trabalho situa-se na busca de alternativas para a melhoria na extração de um modelo de cor de pele e não-pele e, a partir daí, extrair um classificador para identificar a atividade de fala com mais precisão. Algoritmos já existentes de identificação de face e de classificação dos lábios foram utilizados e aprimorados. Através da criação de patches abaixo dos olhos, foi criado um modelo para determinar as características individuais de cor de
publishDate	2010
dc.date.issued.fl_str_mv	2010-03-30
dc.date.accessioned.fl_str_mv	2015-03-05T14:01:22Z
dc.date.available.fl_str_mv	2015-03-05T14:01:22Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://www.repositorio.jesuita.org.br/handle/UNISINOS/2285
url	http://www.repositorio.jesuita.org.br/handle/UNISINOS/2285
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade do Vale do Rio do Sinos
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Computação Aplicada
dc.publisher.initials.fl_str_mv	UNISINOS
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	Escola Politécnica
publisher.none.fl_str_mv	Universidade do Vale do Rio do Sinos
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) instname:Universidade do Vale do Rio dos Sinos (UNISINOS) instacron:UNISINOS
instname_str	Universidade do Vale do Rio dos Sinos (UNISINOS)
instacron_str	UNISINOS
institution	UNISINOS
reponame_str	Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
collection	Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
bitstream.url.fl_str_mv	http://repositorio.jesuita.org.br/bitstream/UNISINOS/2285/1/DarioScottComputacaoAplicada.pdf
bitstream.checksum.fl_str_mv	6c2b915e4cb8a887e758ee8a469d09e8
bitstream.checksumAlgorithm.fl_str_mv	MD5
repository.name.fl_str_mv	Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)
repository.mail.fl_str_mv
_version_	1801844943734439936

Identificação de atividade de voz baseada em vídeo

Registros relacionados