Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado

Detalhes bibliográficos
Autor(a) principal: Basilio, Renan Fasolato
Data de Publicação: 2020
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRJ
Texto Completo: http://hdl.handle.net/11422/18244
Resumo: Este trabalho apresenta uma prova de conceito para um sistema diarizador baseado em uma rede neural convolucional capaz de identificar o estado de fala de um locutor a partir de um vídeo do mesmo, sem fazer uso da onda de áudio relacionada, para aplicação em casos onde esta se encontre em baixa qualidade, ruidosa, ou mesmo ausente. Para isso, é realizado um pré-processamento sobre a imagem de entrada de forma a identificar a posição da face do locutor e extrair desta suas feições principais, que servem de entrada para a rede neural. Uma arquitetura para a rede neural baseada em uma VGG, modificada para lidar com dados tridimensionais, foi construída, cuja implementação levou a um modelo com acurácia preditiva de 86.56%, resultando em uma taxa de erro de diarização de 32.5 sobre os dados de teste no melhor caso.
id UFRJ_9f2e6e494ab5036fac71c4e6b07fa5cc
oai_identifier_str oai:pantheon.ufrj.br:11422/18244
network_acronym_str UFRJ
network_name_str Repositório Institucional da UFRJ
repository_id_str
spelling Basilio, Renan FasolatoSouza, Jano Moreira deAlmeida, Heraldo Luís Silveira deSilva, Geraldo Zimbrão da2022-08-05T21:53:24Z2023-11-30T03:05:08Z2020-08http://hdl.handle.net/11422/18244Submitted by Luís Vittor Minda Santos (vittorminda.santos@gmail.com) on 2021-06-03T21:31:04Z No. of bitstreams: 1 monopoli10031910.pdf: 5777616 bytes, checksum: 6e32fca97abf757397f3d899ca769d1d (MD5)Approved for entry into archive by Moreno Barros (moreno@ct.ufrj.br) on 2022-08-05T21:53:24Z (GMT) No. of bitstreams: 1 monopoli10031910.pdf: 5777616 bytes, checksum: 6e32fca97abf757397f3d899ca769d1d (MD5)Made available in DSpace on 2022-08-05T21:53:24Z (GMT). No. of bitstreams: 1 monopoli10031910.pdf: 5777616 bytes, checksum: 6e32fca97abf757397f3d899ca769d1d (MD5) Previous issue date: 2020-08Este trabalho apresenta uma prova de conceito para um sistema diarizador baseado em uma rede neural convolucional capaz de identificar o estado de fala de um locutor a partir de um vídeo do mesmo, sem fazer uso da onda de áudio relacionada, para aplicação em casos onde esta se encontre em baixa qualidade, ruidosa, ou mesmo ausente. Para isso, é realizado um pré-processamento sobre a imagem de entrada de forma a identificar a posição da face do locutor e extrair desta suas feições principais, que servem de entrada para a rede neural. Uma arquitetura para a rede neural baseada em uma VGG, modificada para lidar com dados tridimensionais, foi construída, cuja implementação levou a um modelo com acurácia preditiva de 86.56%, resultando em uma taxa de erro de diarização de 32.5 sobre os dados de teste no melhor caso.porUniversidade Federal do Rio de JaneiroUFRJBrasilEscola PolitécnicaCNPQ::ENGENHARIASAprendizado SupervisionadoAprendizado de MáquinaDiarização de LocutorDiarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionadoSpeaker diarization in video content based on facial expression analysis via supervised machine learninginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisabertoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJORIGINALmonopoli10031910.pdfmonopoli10031910.pdfapplication/pdf5777616http://pantheon.ufrj.br:80/bitstream/11422/18244/1/monopoli10031910.pdf6e32fca97abf757397f3d899ca769d1dMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81853http://pantheon.ufrj.br:80/bitstream/11422/18244/2/license.txtdd32849f2bfb22da963c3aac6e26e255MD5211422/182442023-11-30 00:05:08.716oai:pantheon.ufrj.br:11422/18244TElDRU7Dh0EgTsODTy1FWENMVVNJVkEgREUgRElTVFJJQlVJw4fDg08KCkFvIGFzc2luYXIgZSBlbnRyZWdhciBlc3RhIGxpY2Vuw6dhLCB2b2PDqihzKSBvKHMpIGF1dG9yKGVzKSBvdSBwcm9wcmlldMOhcmlvKHMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBjb25jZWRlKG0pIGFvIFJlcG9zaXTDs3JpbyBQYW50aGVvbiBkYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gZGUgSmFuZWlybyAoVUZSSikgbyBkaXJlaXRvIG7Do28gLSBleGNsdXNpdm8gZGUgcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vKSBlbSB0b2RvIG8gbXVuZG8sIGVtIGZvcm1hdG8gZWxldHLDtG5pY28gZSBlbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8sIG1hcyBuw6NvIGxpbWl0YWRvIGEgw6F1ZGlvIGUvb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIGEgVUZSSiBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhZHV6aXIgYSBhcHJlc2VudGHDp8OjbyBkZSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gY29tIGEgZmluYWxpZGFkZSBkZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogdGFtYsOpbSBjb25jb3JkYSBxdWUgYSBVRlJKIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXNzYSBzdWJtaXNzw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8OjbyBkaWdpdGFsLgoKRGVjbGFyYSBxdWUgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgc2V1IHRyYWJhbGhvIG9yaWdpbmFsLCBlIHF1ZSB2b2PDqiB0ZW0gbyBkaXJlaXRvIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIGEgc3VhIGFwcmVzZW50YcOnw6NvLCBjb20gbyBtZWxob3IgZGUgc2V1cyBjb25oZWNpbWVudG9zLCBuw6NvIGluZnJpbmdpIGRpcmVpdG9zIGF1dG9yYWlzIGRlIHRlcmNlaXJvcy4KClNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCB2b2PDqiBuw6NvIHRlbSBkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBlIGNvbmNlZGUgYSBVRlJKIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRhIHN1Ym1pc3PDo28uCgpTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIHF1ZSBmb2ksIG91IHRlbSBzaWRvIHBhdHJvY2luYWRvIG91IGFwb2lhZG8gcG9yIHVtYSBhZ8OqbmNpYSBvdSBvdXRybyhzKSBvcmdhbmlzbW8ocykgcXVlIG7Do28gYSBVRlJKLCB2b2PDqiBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWxxdWVyIGRpcmVpdG8gZGUgUkVWSVPDg08gb3UgZGUgb3V0cmFzIG9icmlnYcOnw7VlcyByZXF1ZXJpZGFzIHBvciBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUkogaXLDoSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8ocykgc2V1KHMpIG5vbWUocykgY29tbyBhdXRvcihlcykgb3UgcHJvcHJpZXTDoXJpbyhzKSBkYSBzdWJtaXNzw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZGFzIHBlcm1pdGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EsIG5vIGF0byBkZSBzdWJtaXNzw6NvLgo=Repositório de PublicaçõesPUBhttp://www.pantheon.ufrj.br/oai/requestopendoar:2023-11-30T03:05:08Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false
dc.title.pt_BR.fl_str_mv Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado
dc.title.alternative.pt_BR.fl_str_mv Speaker diarization in video content based on facial expression analysis via supervised machine learning
title Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado
spellingShingle Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado
Basilio, Renan Fasolato
CNPQ::ENGENHARIAS
Aprendizado Supervisionado
Aprendizado de Máquina
Diarização de Locutor
title_short Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado
title_full Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado
title_fullStr Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado
title_full_unstemmed Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado
title_sort Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado
author Basilio, Renan Fasolato
author_facet Basilio, Renan Fasolato
author_role author
dc.contributor.author.fl_str_mv Basilio, Renan Fasolato
dc.contributor.referee1.fl_str_mv Souza, Jano Moreira de
dc.contributor.referee2.fl_str_mv Almeida, Heraldo Luís Silveira de
dc.contributor.advisor1.fl_str_mv Silva, Geraldo Zimbrão da
contributor_str_mv Souza, Jano Moreira de
Almeida, Heraldo Luís Silveira de
Silva, Geraldo Zimbrão da
dc.subject.cnpq.fl_str_mv CNPQ::ENGENHARIAS
topic CNPQ::ENGENHARIAS
Aprendizado Supervisionado
Aprendizado de Máquina
Diarização de Locutor
dc.subject.por.fl_str_mv Aprendizado Supervisionado
Aprendizado de Máquina
Diarização de Locutor
description Este trabalho apresenta uma prova de conceito para um sistema diarizador baseado em uma rede neural convolucional capaz de identificar o estado de fala de um locutor a partir de um vídeo do mesmo, sem fazer uso da onda de áudio relacionada, para aplicação em casos onde esta se encontre em baixa qualidade, ruidosa, ou mesmo ausente. Para isso, é realizado um pré-processamento sobre a imagem de entrada de forma a identificar a posição da face do locutor e extrair desta suas feições principais, que servem de entrada para a rede neural. Uma arquitetura para a rede neural baseada em uma VGG, modificada para lidar com dados tridimensionais, foi construída, cuja implementação levou a um modelo com acurácia preditiva de 86.56%, resultando em uma taxa de erro de diarização de 32.5 sobre os dados de teste no melhor caso.
publishDate 2020
dc.date.issued.fl_str_mv 2020-08
dc.date.accessioned.fl_str_mv 2022-08-05T21:53:24Z
dc.date.available.fl_str_mv 2023-11-30T03:05:08Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11422/18244
url http://hdl.handle.net/11422/18244
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
dc.publisher.initials.fl_str_mv UFRJ
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Escola Politécnica
publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRJ
instname:Universidade Federal do Rio de Janeiro (UFRJ)
instacron:UFRJ
instname_str Universidade Federal do Rio de Janeiro (UFRJ)
instacron_str UFRJ
institution UFRJ
reponame_str Repositório Institucional da UFRJ
collection Repositório Institucional da UFRJ
bitstream.url.fl_str_mv http://pantheon.ufrj.br:80/bitstream/11422/18244/1/monopoli10031910.pdf
http://pantheon.ufrj.br:80/bitstream/11422/18244/2/license.txt
bitstream.checksum.fl_str_mv 6e32fca97abf757397f3d899ca769d1d
dd32849f2bfb22da963c3aac6e26e255
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)
repository.mail.fl_str_mv
_version_ 1784097206567960576