Classificação de segmentos de vídeos por trechos de fala utilizando rede neural convolucional

Caveion, Thallia

Classificação de segmentos de vídeos por trechos de fala utilizando rede neural convolucional

Detalhes bibliográficos
Autor(a) principal:	Caveion, Thallia
Data de Publicação:	2022
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo:	http://repositorio.utfpr.edu.br/jspui/handle/1/30618
Resumo:	Vídeos são uma das formas mais populares de conteúdo na Internet, Plataformas de mídia social e telefones celulares tornaram simples e rápido capturar e publicar vídeos. No entanto, em diversos casos se faz necessário a edição manual desse tipo de conteúdo, a qual é considerada custosa, pois demanda muito tempo. Portanto, a necessidade de uma alternativa de edição automática. Neste trabalho, foi proposto um modelo de classificação de trechos de vídeo utilizando rede neural convolucional. A entrada é composta por diversos vídeos de autoria própria que foram cortados de forma aleatória em diversos trechos. Destes trechos foram extraídos os áudios obtendo arquivos no formato wav (waveform audio file format) que foram previamente classificados. Posteriormente, são extraídas características de cada arquivo utilizando o método coeficientes cepstrais de frequência de Mel (MFCC), obtendo assim espectrogramas equivalentes a imagens 2D. Estes espectrogramas servem como entrada para a rede neural convolucional ao qual gera como saída um modelo de classificação. Resultados experimentais da metodologia proposta mostraram que o modelo é capaz de classificar 92,52% dos trechos de forma correta.

Metadados do item

id	UTFPR-12_67f5cfa3811897c8ad0276e9b0cf97d5
oai_identifier_str	oai:repositorio.utfpr.edu.br:1/30618
network_acronym_str	UTFPR-12
network_name_str	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling	2023-02-23T14:18:03Z2023-02-23T14:18:03Z2022-12-05CAVEION, Thallia. Classificação de segmentos de vídeos por trechos de fala utilizando rede neural convolucional. 2022. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2022.http://repositorio.utfpr.edu.br/jspui/handle/1/30618Vídeos são uma das formas mais populares de conteúdo na Internet, Plataformas de mídia social e telefones celulares tornaram simples e rápido capturar e publicar vídeos. No entanto, em diversos casos se faz necessário a edição manual desse tipo de conteúdo, a qual é considerada custosa, pois demanda muito tempo. Portanto, a necessidade de uma alternativa de edição automática. Neste trabalho, foi proposto um modelo de classificação de trechos de vídeo utilizando rede neural convolucional. A entrada é composta por diversos vídeos de autoria própria que foram cortados de forma aleatória em diversos trechos. Destes trechos foram extraídos os áudios obtendo arquivos no formato wav (waveform audio file format) que foram previamente classificados. Posteriormente, são extraídas características de cada arquivo utilizando o método coeficientes cepstrais de frequência de Mel (MFCC), obtendo assim espectrogramas equivalentes a imagens 2D. Estes espectrogramas servem como entrada para a rede neural convolucional ao qual gera como saída um modelo de classificação. Resultados experimentais da metodologia proposta mostraram que o modelo é capaz de classificar 92,52% dos trechos de forma correta.Videos are one of the most popular contents on the internet, social medias platforms and cell phone’s made capture and publish videos so easy and fast. However, in a lot of cases it’s necessary edit the content manually, which is irksome, because it takes a lot of time. Therefore, the need automatic editing alternative. In this final paper presents a creation proposal of video classification model, using convolutional neural networks. Starts with several self-authored videos, which each one was randomly cut in different parts. From these parts, there were took the audios in wav (waveform audio format), previously classified and after extracted the characteristics of each file using the Mel frequency cepstrum coefficients method (MFCC), it was got spectrograms as like 2D images. Those spectrograms start the convolutional neural networks implemented producing as output, a classification model. Experimental results from the methodology proposed, showed that this model it’s able to classify 92,52% of videos stretches correctly.porUniversidade Tecnológica Federal do ParanáPato BrancoEngenharia de ComputaçãoUTFPRBrasilDepartamento Acadêmico de Informáticahttp://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAORedes neurais (Computação)Gravação em vídeoEdição de dadosNeural networks (Computer science)Video recordingData editingClassificação de segmentos de vídeos por trechos de fala utilizando rede neural convolucionalClassification of video segments by speech snippets using convolutional neural networkinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisPato BrancoRodrigues, Érick OliveiraOliva, Jefferson TalesRodrigues, Érick OliveiraOliva, Jefferson TalesAscari, Rúbia Eliza de Oliveira SchultzCaveion, Thalliareponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81031http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30618/8/license_rdf934f4ca17e109e0a05eaeaba504d7ce4MD58LICENSElicense.txtlicense.txttext/plain; charset=utf-81290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30618/9/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD59ORIGINALclassificacaotrechosvideo.pdfclassificacaotrechosvideo.pdfapplication/pdf1428329http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30618/1/classificacaotrechosvideo.pdf2629df710b5d64f476c11eb64d02871eMD51TEXTclassificacaotrechosvideo.pdf.txtclassificacaotrechosvideo.pdf.txtExtracted texttext/plain72838http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30618/10/classificacaotrechosvideo.pdf.txte197cf12c6ce2b9c4ff0a32aaf1e5f86MD510THUMBNAILclassificacaotrechosvideo.pdf.jpgclassificacaotrechosvideo.pdf.jpgGenerated Thumbnailimage/jpeg1210http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30618/11/classificacaotrechosvideo.pdf.jpgc244803e95c559df50649ae158ab077fMD5111/306182023-02-24 04:07:04.9oai:repositorio.utfpr.edu.br:1/30618TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2023-02-24T06:07:04Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv	Classificação de segmentos de vídeos por trechos de fala utilizando rede neural convolucional
dc.title.alternative.pt_BR.fl_str_mv	Classification of video segments by speech snippets using convolutional neural network
title	Classificação de segmentos de vídeos por trechos de fala utilizando rede neural convolucional
spellingShingle	Classificação de segmentos de vídeos por trechos de fala utilizando rede neural convolucional Caveion, Thallia CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Redes neurais (Computação) Gravação em vídeo Edição de dados Neural networks (Computer science) Video recording Data editing
title_short	Classificação de segmentos de vídeos por trechos de fala utilizando rede neural convolucional
title_full	Classificação de segmentos de vídeos por trechos de fala utilizando rede neural convolucional
title_fullStr	Classificação de segmentos de vídeos por trechos de fala utilizando rede neural convolucional
title_full_unstemmed	Classificação de segmentos de vídeos por trechos de fala utilizando rede neural convolucional
title_sort	Classificação de segmentos de vídeos por trechos de fala utilizando rede neural convolucional
author	Caveion, Thallia
author_facet	Caveion, Thallia
author_role	author
dc.contributor.advisor1.fl_str_mv	Rodrigues, Érick Oliveira
dc.contributor.advisor-co1.fl_str_mv	Oliva, Jefferson Tales
dc.contributor.referee1.fl_str_mv	Rodrigues, Érick Oliveira
dc.contributor.referee2.fl_str_mv	Oliva, Jefferson Tales
dc.contributor.referee3.fl_str_mv	Ascari, Rúbia Eliza de Oliveira Schultz
dc.contributor.author.fl_str_mv	Caveion, Thallia
contributor_str_mv	Rodrigues, Érick Oliveira Oliva, Jefferson Tales Rodrigues, Érick Oliveira Oliva, Jefferson Tales Ascari, Rúbia Eliza de Oliveira Schultz
dc.subject.cnpq.fl_str_mv	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Redes neurais (Computação) Gravação em vídeo Edição de dados Neural networks (Computer science) Video recording Data editing
dc.subject.por.fl_str_mv	Redes neurais (Computação) Gravação em vídeo Edição de dados Neural networks (Computer science) Video recording Data editing
description	Vídeos são uma das formas mais populares de conteúdo na Internet, Plataformas de mídia social e telefones celulares tornaram simples e rápido capturar e publicar vídeos. No entanto, em diversos casos se faz necessário a edição manual desse tipo de conteúdo, a qual é considerada custosa, pois demanda muito tempo. Portanto, a necessidade de uma alternativa de edição automática. Neste trabalho, foi proposto um modelo de classificação de trechos de vídeo utilizando rede neural convolucional. A entrada é composta por diversos vídeos de autoria própria que foram cortados de forma aleatória em diversos trechos. Destes trechos foram extraídos os áudios obtendo arquivos no formato wav (waveform audio file format) que foram previamente classificados. Posteriormente, são extraídas características de cada arquivo utilizando o método coeficientes cepstrais de frequência de Mel (MFCC), obtendo assim espectrogramas equivalentes a imagens 2D. Estes espectrogramas servem como entrada para a rede neural convolucional ao qual gera como saída um modelo de classificação. Resultados experimentais da metodologia proposta mostraram que o modelo é capaz de classificar 92,52% dos trechos de forma correta.
publishDate	2022
dc.date.issued.fl_str_mv	2022-12-05
dc.date.accessioned.fl_str_mv	2023-02-23T14:18:03Z
dc.date.available.fl_str_mv	2023-02-23T14:18:03Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	CAVEION, Thallia. Classificação de segmentos de vídeos por trechos de fala utilizando rede neural convolucional. 2022. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2022.
dc.identifier.uri.fl_str_mv	http://repositorio.utfpr.edu.br/jspui/handle/1/30618
identifier_str_mv	CAVEION, Thallia. Classificação de segmentos de vídeos por trechos de fala utilizando rede neural convolucional. 2022. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2022.
url	http://repositorio.utfpr.edu.br/jspui/handle/1/30618
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	http://creativecommons.org/licenses/by-nc-sa/4.0/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-sa/4.0/
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Tecnológica Federal do Paraná Pato Branco
dc.publisher.program.fl_str_mv	Engenharia de Computação
dc.publisher.initials.fl_str_mv	UTFPR
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	Departamento Acadêmico de Informática
publisher.none.fl_str_mv	Universidade Tecnológica Federal do Paraná Pato Branco
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR
instname_str	Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str	UTFPR
institution	UTFPR
reponame_str	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv	http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30618/8/license_rdf http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30618/9/license.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30618/1/classificacaotrechosvideo.pdf http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30618/10/classificacaotrechosvideo.pdf.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30618/11/classificacaotrechosvideo.pdf.jpg
bitstream.checksum.fl_str_mv	934f4ca17e109e0a05eaeaba504d7ce4 b9d82215ab23456fa2d8b49c5df1b95b 2629df710b5d64f476c11eb64d02871e e197cf12c6ce2b9c4ff0a32aaf1e5f86 c244803e95c559df50649ae158ab077f
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_	1797043964896870400

Classificação de segmentos de vídeos por trechos de fala utilizando rede neural convolucional

Registros relacionados