Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado

Basilio, Renan Fasolato

Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado

Detalhes bibliográficos
Autor(a) principal:	Basilio, Renan Fasolato
Data de Publicação:	2020
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UFRJ
Texto Completo:	http://hdl.handle.net/11422/18244
Resumo:	Este trabalho apresenta uma prova de conceito para um sistema diarizador baseado em uma rede neural convolucional capaz de identificar o estado de fala de um locutor a partir de um vídeo do mesmo, sem fazer uso da onda de áudio relacionada, para aplicação em casos onde esta se encontre em baixa qualidade, ruidosa, ou mesmo ausente. Para isso, é realizado um pré-processamento sobre a imagem de entrada de forma a identificar a posição da face do locutor e extrair desta suas feições principais, que servem de entrada para a rede neural. Uma arquitetura para a rede neural baseada em uma VGG, modificada para lidar com dados tridimensionais, foi construída, cuja implementação levou a um modelo com acurácia preditiva de 86.56%, resultando em uma taxa de erro de diarização de 32.5 sobre os dados de teste no melhor caso.

Metadados do item

id	UFRJ_9f2e6e494ab5036fac71c4e6b07fa5cc
oai_identifier_str	oai:pantheon.ufrj.br:11422/18244
network_acronym_str	UFRJ
network_name_str	Repositório Institucional da UFRJ
repository_id_str
spelling	Basilio, Renan FasolatoSouza, Jano Moreira deAlmeida, Heraldo Luís Silveira deSilva, Geraldo Zimbrão da2022-08-05T21:53:24Z2023-11-30T03:05:08Z2020-08http://hdl.handle.net/11422/18244Submitted by Luís Vittor Minda Santos (vittorminda.santos@gmail.com) on 2021-06-03T21:31:04Z No. of bitstreams: 1 monopoli10031910.pdf: 5777616 bytes, checksum: 6e32fca97abf757397f3d899ca769d1d (MD5)Approved for entry into archive by Moreno Barros (moreno@ct.ufrj.br) on 2022-08-05T21:53:24Z (GMT) No. of bitstreams: 1 monopoli10031910.pdf: 5777616 bytes, checksum: 6e32fca97abf757397f3d899ca769d1d (MD5)Made available in DSpace on 2022-08-05T21:53:24Z (GMT). No. of bitstreams: 1 monopoli10031910.pdf: 5777616 bytes, checksum: 6e32fca97abf757397f3d899ca769d1d (MD5) Previous issue date: 2020-08Este trabalho apresenta uma prova de conceito para um sistema diarizador baseado em uma rede neural convolucional capaz de identificar o estado de fala de um locutor a partir de um vídeo do mesmo, sem fazer uso da onda de áudio relacionada, para aplicação em casos onde esta se encontre em baixa qualidade, ruidosa, ou mesmo ausente. Para isso, é realizado um pré-processamento sobre a imagem de entrada de forma a identificar a posição da face do locutor e extrair desta suas feições principais, que servem de entrada para a rede neural. Uma arquitetura para a rede neural baseada em uma VGG, modificada para lidar com dados tridimensionais, foi construída, cuja implementação levou a um modelo com acurácia preditiva de 86.56%, resultando em uma taxa de erro de diarização de 32.5 sobre os dados de teste no melhor caso.porUniversidade Federal do Rio de JaneiroUFRJBrasilEscola PolitécnicaCNPQ::ENGENHARIASAprendizado SupervisionadoAprendizado de MáquinaDiarização de LocutorDiarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionadoSpeaker diarization in video content based on facial expression analysis via supervised machine learninginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisabertoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJORIGINALmonopoli10031910.pdfmonopoli10031910.pdfapplication/pdf5777616http://pantheon.ufrj.br:80/bitstream/11422/18244/1/monopoli10031910.pdf6e32fca97abf757397f3d899ca769d1dMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81853http://pantheon.ufrj.br:80/bitstream/11422/18244/2/license.txtdd32849f2bfb22da963c3aac6e26e255MD5211422/182442023-11-30 00:05:08.716oai:pantheon.ufrj.br:11422/18244TElDRU7Dh0EgTsODTy1FWENMVVNJVkEgREUgRElTVFJJQlVJw4fDg08KCkFvIGFzc2luYXIgZSBlbnRyZWdhciBlc3RhIGxpY2Vuw6dhLCB2b2PDqihzKSBvKHMpIGF1dG9yKGVzKSBvdSBwcm9wcmlldMOhcmlvKHMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBjb25jZWRlKG0pIGFvIFJlcG9zaXTDs3JpbyBQYW50aGVvbiBkYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gZGUgSmFuZWlybyAoVUZSSikgbyBkaXJlaXRvIG7Do28gLSBleGNsdXNpdm8gZGUgcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vKSBlbSB0b2RvIG8gbXVuZG8sIGVtIGZvcm1hdG8gZWxldHLDtG5pY28gZSBlbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8sIG1hcyBuw6NvIGxpbWl0YWRvIGEgw6F1ZGlvIGUvb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIGEgVUZSSiBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhZHV6aXIgYSBhcHJlc2VudGHDp8OjbyBkZSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gY29tIGEgZmluYWxpZGFkZSBkZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogdGFtYsOpbSBjb25jb3JkYSBxdWUgYSBVRlJKIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXNzYSBzdWJtaXNzw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8OjbyBkaWdpdGFsLgoKRGVjbGFyYSBxdWUgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgc2V1IHRyYWJhbGhvIG9yaWdpbmFsLCBlIHF1ZSB2b2PDqiB0ZW0gbyBkaXJlaXRvIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIGEgc3VhIGFwcmVzZW50YcOnw6NvLCBjb20gbyBtZWxob3IgZGUgc2V1cyBjb25oZWNpbWVudG9zLCBuw6NvIGluZnJpbmdpIGRpcmVpdG9zIGF1dG9yYWlzIGRlIHRlcmNlaXJvcy4KClNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCB2b2PDqiBuw6NvIHRlbSBkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBlIGNvbmNlZGUgYSBVRlJKIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRhIHN1Ym1pc3PDo28uCgpTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIHF1ZSBmb2ksIG91IHRlbSBzaWRvIHBhdHJvY2luYWRvIG91IGFwb2lhZG8gcG9yIHVtYSBhZ8OqbmNpYSBvdSBvdXRybyhzKSBvcmdhbmlzbW8ocykgcXVlIG7Do28gYSBVRlJKLCB2b2PDqiBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWxxdWVyIGRpcmVpdG8gZGUgUkVWSVPDg08gb3UgZGUgb3V0cmFzIG9icmlnYcOnw7VlcyByZXF1ZXJpZGFzIHBvciBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUkogaXLDoSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8ocykgc2V1KHMpIG5vbWUocykgY29tbyBhdXRvcihlcykgb3UgcHJvcHJpZXTDoXJpbyhzKSBkYSBzdWJtaXNzw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZGFzIHBlcm1pdGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EsIG5vIGF0byBkZSBzdWJtaXNzw6NvLgo=Repositório de PublicaçõesPUBhttp://www.pantheon.ufrj.br/oai/requestopendoar:2023-11-30T03:05:08Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false
dc.title.pt_BR.fl_str_mv	Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado
dc.title.alternative.pt_BR.fl_str_mv	Speaker diarization in video content based on facial expression analysis via supervised machine learning
title	Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado
spellingShingle	Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado Basilio, Renan Fasolato CNPQ::ENGENHARIAS Aprendizado Supervisionado Aprendizado de Máquina Diarização de Locutor
title_short	Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado
title_full	Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado
title_fullStr	Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado
title_full_unstemmed	Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado
title_sort	Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado
author	Basilio, Renan Fasolato
author_facet	Basilio, Renan Fasolato
author_role	author
dc.contributor.author.fl_str_mv	Basilio, Renan Fasolato
dc.contributor.referee1.fl_str_mv	Souza, Jano Moreira de
dc.contributor.referee2.fl_str_mv	Almeida, Heraldo Luís Silveira de
dc.contributor.advisor1.fl_str_mv	Silva, Geraldo Zimbrão da
contributor_str_mv	Souza, Jano Moreira de Almeida, Heraldo Luís Silveira de Silva, Geraldo Zimbrão da
dc.subject.cnpq.fl_str_mv	CNPQ::ENGENHARIAS
topic	CNPQ::ENGENHARIAS Aprendizado Supervisionado Aprendizado de Máquina Diarização de Locutor
dc.subject.por.fl_str_mv	Aprendizado Supervisionado Aprendizado de Máquina Diarização de Locutor
description	Este trabalho apresenta uma prova de conceito para um sistema diarizador baseado em uma rede neural convolucional capaz de identificar o estado de fala de um locutor a partir de um vídeo do mesmo, sem fazer uso da onda de áudio relacionada, para aplicação em casos onde esta se encontre em baixa qualidade, ruidosa, ou mesmo ausente. Para isso, é realizado um pré-processamento sobre a imagem de entrada de forma a identificar a posição da face do locutor e extrair desta suas feições principais, que servem de entrada para a rede neural. Uma arquitetura para a rede neural baseada em uma VGG, modificada para lidar com dados tridimensionais, foi construída, cuja implementação levou a um modelo com acurácia preditiva de 86.56%, resultando em uma taxa de erro de diarização de 32.5 sobre os dados de teste no melhor caso.
publishDate	2020
dc.date.issued.fl_str_mv	2020-08
dc.date.accessioned.fl_str_mv	2022-08-05T21:53:24Z
dc.date.available.fl_str_mv	2023-11-30T03:05:08Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/11422/18244
url	http://hdl.handle.net/11422/18244
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal do Rio de Janeiro
dc.publisher.initials.fl_str_mv	UFRJ
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	Escola Politécnica
publisher.none.fl_str_mv	Universidade Federal do Rio de Janeiro
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRJ instname:Universidade Federal do Rio de Janeiro (UFRJ) instacron:UFRJ
instname_str	Universidade Federal do Rio de Janeiro (UFRJ)
instacron_str	UFRJ
institution	UFRJ
reponame_str	Repositório Institucional da UFRJ
collection	Repositório Institucional da UFRJ
bitstream.url.fl_str_mv	http://pantheon.ufrj.br:80/bitstream/11422/18244/1/monopoli10031910.pdf http://pantheon.ufrj.br:80/bitstream/11422/18244/2/license.txt
bitstream.checksum.fl_str_mv	6e32fca97abf757397f3d899ca769d1d dd32849f2bfb22da963c3aac6e26e255
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)
repository.mail.fl_str_mv
_version_	1784097206567960576

Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado

Registros relacionados