Remoção de ruídos aditivos e segmentação de palavras-chave em áudios

PESSOA, Maurício Cesar Pinto

Remoção de ruídos aditivos e segmentação de palavras-chave em áudios

Detalhes bibliográficos
Autor(a) principal:	PESSOA, Maurício Cesar Pinto
Data de Publicação:	2018
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFMA
Texto Completo:	https://tedebc.ufma.br/jspui/handle/tede/tede/2469
Resumo:	A presença de ruídos aditivos é um dos principais problemas em sistemas de reconhecimento de áudio digital, pois dificultam a etapa de segmentação dos trechos relevantes de áudio, além de reduzir o desempenho dos classificadores. O principal objetivo desse trabalho é desenvolver um método de remoção de ruído e segmentação em arquivos de áudio digital, com foco nos arquivos gerados pelo método de observação direta, onde um observador grava em áudio todas as ações executadas pelo espécime observado de forma codificada em Bite Categories. Esse método pré-processa os arquivos de áudio a fim de normalizá-los e de reduzir sua dimensionalidade, posteriormente sendo utilizada a rede geradora adversária SEGAN para a remoção dos ruídos. A etapa de segmentação do áudio começa com um pré-processamento que atenua os vales do sinal e enfatiza os picos, de forma similar `a normalização do sinal, seguido da aplicação de uma função de silenciamento de vales, com base no desvio padrão e escore padronizado. A segmentação é realizada a partir de uma função de mapeamento que encontra os tempos de início e fim de cada segmento com base na detecção de silêncios usando janelas deslizantes com sobreposição. Os testes de remoção de ruídos foram realizados através de um estudo duplo-cego, utilizando questionários com escala de Likert unipolar de 5 pontos e uma base de áudios compilada pelo autor, de forma a medir subjetivamente a qualidade do método, onde se obteve uma média 3,56 de 5 na remoção de ruídos e média 4,14 de 5 na qualidade geral do áudio. Os testes de segmentação foram realizados a partir de uma segunda base de áudios compilada pelo autor, onde se obteve um coeficiente de similaridade de Dice de 85,10% para os áudios sem ruído, 77,95% para os áudios ruidosos e 76,12% para os áudios com o ruído removido através da SEGAN. Após a apresentação dos resultados, compara-se o desempenho dos métodos propostos com alguns trabalhos relacionados presentes na literatura..

Metadados do item

id	UFMA_21f9947d886683793b896631d8eca476
oai_identifier_str	oai:tede2:tede/2469
network_acronym_str	UFMA
network_name_str	Biblioteca Digital de Teses e Dissertações da UFMA
repository_id_str	2131
spelling	BOCHARTT, Tiago Bonini015198330-59http://lattes.cnpq.br/2352727269839328BOCHARTT, Tiago Bonini015198330-59http://lattes.cnpq.br/2352727269839328BRAZ JUNIOR, Geraldohttp://lattes.cnpq.br/8287861610873629BRANDÃO, André Luizhttp://lattes.cnpq.br/5132988314756109022116873-77http://lattes.cnpq.br/3186828881205839PESSOA, Maurício Cesar Pinto2018-12-19T20:09:22Z2018-08-23PESSOA, Maurício Cesar Pinto. Remoção de ruídos aditivos e segmentação de palavras-chave em áudios. 2018. 83 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís.https://tedebc.ufma.br/jspui/handle/tede/tede/2469A presença de ruídos aditivos é um dos principais problemas em sistemas de reconhecimento de áudio digital, pois dificultam a etapa de segmentação dos trechos relevantes de áudio, além de reduzir o desempenho dos classificadores. O principal objetivo desse trabalho é desenvolver um método de remoção de ruído e segmentação em arquivos de áudio digital, com foco nos arquivos gerados pelo método de observação direta, onde um observador grava em áudio todas as ações executadas pelo espécime observado de forma codificada em Bite Categories. Esse método pré-processa os arquivos de áudio a fim de normalizá-los e de reduzir sua dimensionalidade, posteriormente sendo utilizada a rede geradora adversária SEGAN para a remoção dos ruídos. A etapa de segmentação do áudio começa com um pré-processamento que atenua os vales do sinal e enfatiza os picos, de forma similar `a normalização do sinal, seguido da aplicação de uma função de silenciamento de vales, com base no desvio padrão e escore padronizado. A segmentação é realizada a partir de uma função de mapeamento que encontra os tempos de início e fim de cada segmento com base na detecção de silêncios usando janelas deslizantes com sobreposição. Os testes de remoção de ruídos foram realizados através de um estudo duplo-cego, utilizando questionários com escala de Likert unipolar de 5 pontos e uma base de áudios compilada pelo autor, de forma a medir subjetivamente a qualidade do método, onde se obteve uma média 3,56 de 5 na remoção de ruídos e média 4,14 de 5 na qualidade geral do áudio. Os testes de segmentação foram realizados a partir de uma segunda base de áudios compilada pelo autor, onde se obteve um coeficiente de similaridade de Dice de 85,10% para os áudios sem ruído, 77,95% para os áudios ruidosos e 76,12% para os áudios com o ruído removido através da SEGAN. Após a apresentação dos resultados, compara-se o desempenho dos métodos propostos com alguns trabalhos relacionados presentes na literatura..The presence of additive noise is one of the main problems in digital audio recognition systems as they make it difficult to segment the audio relevant portions and may also reduce classifier performance. The main objective of this work is to develop a method of noise removal and segmentation in digital audio files generated by the direct observation method. This method is where an observer records, in audio, all the actions taken by a given specimen, coded in bite categories. This method preprocesses the audio files in order to normalize them and reduce their dimensionality, after which the SEGAN neural network is used to remove the noise. The audio segmentation step begins with a pre-processing that attenuates the signal valleys and emphasizes the peaks, similar to signal normalization. The pre-processing is followed by the application of the valley silencing function, based on the standard deviation and standardized score. Segmentation is performed by using a mapping function that finds the start and end times of each segment, using silence detection and overlapping sliding windows. The noise removal tests were performed through a double-blind study, using questionnaires with an unipolar 5-point Likert scale and an audio dataset compiled by the author, in order to subjectively measure the method’s quality. Quality scores reached an average of 3.56 out of 5 on noise removal and an average of 4.14 out of 5 on overall audio quality. The segmentation tests were performed from a second audio dataset compiled by the author, and obtained Dice scores of 85.10% on the noiseless audios, 77.95% on the noisy audios, and 76.12% on the audios that had their noise removed through the SEGAN network. After the results are presented, a comparison is made between the obtained results and some related works currently present in the literature.Submitted by Daniella Santos (daniella.santos@ufma.br) on 2018-12-19T20:09:22Z No. of bitstreams: 1 MauricioPessoa.pdf: 1872541 bytes, checksum: 277fa0f3699e2920a755b704734701d3 (MD5)Made available in DSpace on 2018-12-19T20:09:22Z (GMT). No. of bitstreams: 1 MauricioPessoa.pdf: 1872541 bytes, checksum: 277fa0f3699e2920a755b704734701d3 (MD5) Previous issue date: 2018-08-23CAPESapplication/pdfporUniversidade Federal do MaranhãoPROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCETUFMABrasilDEPARTAMENTO DE INFORMÁTICA/CCETProcessamento de áudioRemoçao de ruídosSegmentação de áudioRedes geradoras adversáriasWaveletsAudio processingNoise removalAudio segmentationGenerative adversarial networksWaveletsCiência da ComputaçãoRemoção de ruídos aditivos e segmentação de palavras-chave em áudiosAdditive Noise Removal and Keywords Targeting in Audioinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFMAinstname:Universidade Federal do Maranhão (UFMA)instacron:UFMAORIGINALMauricioPessoa.pdfMauricioPessoa.pdfapplication/pdf1872541http://tedebc.ufma.br:8080/bitstream/tede/2469/2/MauricioPessoa.pdf277fa0f3699e2920a755b704734701d3MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82255http://tedebc.ufma.br:8080/bitstream/tede/2469/1/license.txt97eeade1fce43278e63fe063657f8083MD51tede/24692018-12-19 17:10:06.07oai:tede2:tede/2469IExJQ0VOw4dBIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHDp8OjbyBkZXN0YSBsaWNlbsOnYSxvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvciBjb25jZWRlIMOgIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRvIE1hcmFuaMOjbyAoVUZNQSkgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IGRpc3RyaWJ1aXIgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBjb25jb3JkYSBxdWUgYSBVRk1BIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFVGTUEgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgw6AgVUZNQSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBVRk1BLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCkEgVUZNQSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbywgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyBjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgoKRGVjbGFyYSB0YW1iw6ltIHF1ZSB0b2RhcyBhcyBhZmlsaWHDp8O1ZXMgY29ycG9yYXRpdmFzIG91IGluc3RpdHVjaW9uYWlzIGUgdG9kYXMgYXMgZm9udGVzIGRlIGFwb2lvIGZpbmFuY2Vpcm8gYW8gdHJhYmFsaG8gZXN0w6NvIGRldmlkYW1lbnRlIGNpdGFkYXMgb3UgbWVuY2lvbmFkYXMgZSBjZXJ0aWZpY2EgcXVlIG7Do28gaMOhIG5lbmh1bSBpbnRlcmVzc2UgY29tZXJjaWFsIG91IGFzc29jaWF0aXZvIHF1ZSByZXByZXNlbnRlIGNvbmZsaXRvIGRlIGludGVyZXNzZSBlbSBjb25leMOjbyBjb20gbyB0cmFiYWxobyBzdWJtZXRpZG8uCgoKCgoKCgo=Biblioteca Digital de Teses e Dissertaçõeshttps://tedebc.ufma.br/jspui/PUBhttp://tedebc.ufma.br:8080/oai/requestrepositorio@ufma.br\|\|repositorio@ufma.bropendoar:21312018-12-19T20:10:06Biblioteca Digital de Teses e Dissertações da UFMA - Universidade Federal do Maranhão (UFMA)false
dc.title.por.fl_str_mv	Remoção de ruídos aditivos e segmentação de palavras-chave em áudios
dc.title.alternative.eng.fl_str_mv	Additive Noise Removal and Keywords Targeting in Audio
title	Remoção de ruídos aditivos e segmentação de palavras-chave em áudios
spellingShingle	Remoção de ruídos aditivos e segmentação de palavras-chave em áudios PESSOA, Maurício Cesar Pinto Processamento de áudio Remoçao de ruídos Segmentação de áudio Redes geradoras adversárias Wavelets Audio processing Noise removal Audio segmentation Generative adversarial networks Wavelets Ciência da Computação
title_short	Remoção de ruídos aditivos e segmentação de palavras-chave em áudios
title_full	Remoção de ruídos aditivos e segmentação de palavras-chave em áudios
title_fullStr	Remoção de ruídos aditivos e segmentação de palavras-chave em áudios
title_full_unstemmed	Remoção de ruídos aditivos e segmentação de palavras-chave em áudios
title_sort	Remoção de ruídos aditivos e segmentação de palavras-chave em áudios
author	PESSOA, Maurício Cesar Pinto
author_facet	PESSOA, Maurício Cesar Pinto
author_role	author
dc.contributor.advisor1.fl_str_mv	BOCHARTT, Tiago Bonini
dc.contributor.advisor1ID.fl_str_mv	015198330-59
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br/2352727269839328
dc.contributor.referee1.fl_str_mv	BOCHARTT, Tiago Bonini
dc.contributor.referee1ID.fl_str_mv	015198330-59
dc.contributor.referee1Lattes.fl_str_mv	http://lattes.cnpq.br/2352727269839328
dc.contributor.referee2.fl_str_mv	BRAZ JUNIOR, Geraldo
dc.contributor.referee2Lattes.fl_str_mv	http://lattes.cnpq.br/8287861610873629
dc.contributor.referee3.fl_str_mv	BRANDÃO, André Luiz
dc.contributor.referee3Lattes.fl_str_mv	http://lattes.cnpq.br/5132988314756109
dc.contributor.authorID.fl_str_mv	022116873-77
dc.contributor.authorLattes.fl_str_mv	http://lattes.cnpq.br/3186828881205839
dc.contributor.author.fl_str_mv	PESSOA, Maurício Cesar Pinto
contributor_str_mv	BOCHARTT, Tiago Bonini BOCHARTT, Tiago Bonini BRAZ JUNIOR, Geraldo BRANDÃO, André Luiz
dc.subject.por.fl_str_mv	Processamento de áudio Remoçao de ruídos Segmentação de áudio Redes geradoras adversárias Wavelets
topic	Processamento de áudio Remoçao de ruídos Segmentação de áudio Redes geradoras adversárias Wavelets Audio processing Noise removal Audio segmentation Generative adversarial networks Wavelets Ciência da Computação
dc.subject.eng.fl_str_mv	Audio processing Noise removal Audio segmentation Generative adversarial networks Wavelets
dc.subject.cnpq.fl_str_mv	Ciência da Computação
description	A presença de ruídos aditivos é um dos principais problemas em sistemas de reconhecimento de áudio digital, pois dificultam a etapa de segmentação dos trechos relevantes de áudio, além de reduzir o desempenho dos classificadores. O principal objetivo desse trabalho é desenvolver um método de remoção de ruído e segmentação em arquivos de áudio digital, com foco nos arquivos gerados pelo método de observação direta, onde um observador grava em áudio todas as ações executadas pelo espécime observado de forma codificada em Bite Categories. Esse método pré-processa os arquivos de áudio a fim de normalizá-los e de reduzir sua dimensionalidade, posteriormente sendo utilizada a rede geradora adversária SEGAN para a remoção dos ruídos. A etapa de segmentação do áudio começa com um pré-processamento que atenua os vales do sinal e enfatiza os picos, de forma similar `a normalização do sinal, seguido da aplicação de uma função de silenciamento de vales, com base no desvio padrão e escore padronizado. A segmentação é realizada a partir de uma função de mapeamento que encontra os tempos de início e fim de cada segmento com base na detecção de silêncios usando janelas deslizantes com sobreposição. Os testes de remoção de ruídos foram realizados através de um estudo duplo-cego, utilizando questionários com escala de Likert unipolar de 5 pontos e uma base de áudios compilada pelo autor, de forma a medir subjetivamente a qualidade do método, onde se obteve uma média 3,56 de 5 na remoção de ruídos e média 4,14 de 5 na qualidade geral do áudio. Os testes de segmentação foram realizados a partir de uma segunda base de áudios compilada pelo autor, onde se obteve um coeficiente de similaridade de Dice de 85,10% para os áudios sem ruído, 77,95% para os áudios ruidosos e 76,12% para os áudios com o ruído removido através da SEGAN. Após a apresentação dos resultados, compara-se o desempenho dos métodos propostos com alguns trabalhos relacionados presentes na literatura..
publishDate	2018
dc.date.accessioned.fl_str_mv	2018-12-19T20:09:22Z
dc.date.issued.fl_str_mv	2018-08-23
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	PESSOA, Maurício Cesar Pinto. Remoção de ruídos aditivos e segmentação de palavras-chave em áudios. 2018. 83 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís.
dc.identifier.uri.fl_str_mv	https://tedebc.ufma.br/jspui/handle/tede/tede/2469
identifier_str_mv	PESSOA, Maurício Cesar Pinto. Remoção de ruídos aditivos e segmentação de palavras-chave em áudios. 2018. 83 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís.
url	https://tedebc.ufma.br/jspui/handle/tede/tede/2469
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal do Maranhão
dc.publisher.program.fl_str_mv	PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCET
dc.publisher.initials.fl_str_mv	UFMA
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	DEPARTAMENTO DE INFORMÁTICA/CCET
publisher.none.fl_str_mv	Universidade Federal do Maranhão
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFMA instname:Universidade Federal do Maranhão (UFMA) instacron:UFMA
instname_str	Universidade Federal do Maranhão (UFMA)
instacron_str	UFMA
institution	UFMA
reponame_str	Biblioteca Digital de Teses e Dissertações da UFMA
collection	Biblioteca Digital de Teses e Dissertações da UFMA
bitstream.url.fl_str_mv	http://tedebc.ufma.br:8080/bitstream/tede/2469/2/MauricioPessoa.pdf http://tedebc.ufma.br:8080/bitstream/tede/2469/1/license.txt
bitstream.checksum.fl_str_mv	277fa0f3699e2920a755b704734701d3 97eeade1fce43278e63fe063657f8083
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFMA - Universidade Federal do Maranhão (UFMA)
repository.mail.fl_str_mv	repositorio@ufma.br\|\|repositorio@ufma.br
_version_	1800303796273807360

Remoção de ruídos aditivos e segmentação de palavras-chave em áudios

Registros relacionados