Remoção de ruídos aditivos e segmentação de palavras-chave em áudios
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFMA |
Texto Completo: | https://tedebc.ufma.br/jspui/handle/tede/tede/2469 |
Resumo: | A presença de ruídos aditivos é um dos principais problemas em sistemas de reconhecimento de áudio digital, pois dificultam a etapa de segmentação dos trechos relevantes de áudio, além de reduzir o desempenho dos classificadores. O principal objetivo desse trabalho é desenvolver um método de remoção de ruído e segmentação em arquivos de áudio digital, com foco nos arquivos gerados pelo método de observação direta, onde um observador grava em áudio todas as ações executadas pelo espécime observado de forma codificada em Bite Categories. Esse método pré-processa os arquivos de áudio a fim de normalizá-los e de reduzir sua dimensionalidade, posteriormente sendo utilizada a rede geradora adversária SEGAN para a remoção dos ruídos. A etapa de segmentação do áudio começa com um pré-processamento que atenua os vales do sinal e enfatiza os picos, de forma similar `a normalização do sinal, seguido da aplicação de uma função de silenciamento de vales, com base no desvio padrão e escore padronizado. A segmentação é realizada a partir de uma função de mapeamento que encontra os tempos de início e fim de cada segmento com base na detecção de silêncios usando janelas deslizantes com sobreposição. Os testes de remoção de ruídos foram realizados através de um estudo duplo-cego, utilizando questionários com escala de Likert unipolar de 5 pontos e uma base de áudios compilada pelo autor, de forma a medir subjetivamente a qualidade do método, onde se obteve uma média 3,56 de 5 na remoção de ruídos e média 4,14 de 5 na qualidade geral do áudio. Os testes de segmentação foram realizados a partir de uma segunda base de áudios compilada pelo autor, onde se obteve um coeficiente de similaridade de Dice de 85,10% para os áudios sem ruído, 77,95% para os áudios ruidosos e 76,12% para os áudios com o ruído removido através da SEGAN. Após a apresentação dos resultados, compara-se o desempenho dos métodos propostos com alguns trabalhos relacionados presentes na literatura.. |
id |
UFMA_21f9947d886683793b896631d8eca476 |
---|---|
oai_identifier_str |
oai:tede2:tede/2469 |
network_acronym_str |
UFMA |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFMA |
repository_id_str |
2131 |
spelling |
BOCHARTT, Tiago Bonini015198330-59http://lattes.cnpq.br/2352727269839328BOCHARTT, Tiago Bonini015198330-59http://lattes.cnpq.br/2352727269839328BRAZ JUNIOR, Geraldohttp://lattes.cnpq.br/8287861610873629BRANDÃO, André Luizhttp://lattes.cnpq.br/5132988314756109022116873-77http://lattes.cnpq.br/3186828881205839PESSOA, Maurício Cesar Pinto2018-12-19T20:09:22Z2018-08-23PESSOA, Maurício Cesar Pinto. Remoção de ruídos aditivos e segmentação de palavras-chave em áudios. 2018. 83 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís.https://tedebc.ufma.br/jspui/handle/tede/tede/2469A presença de ruídos aditivos é um dos principais problemas em sistemas de reconhecimento de áudio digital, pois dificultam a etapa de segmentação dos trechos relevantes de áudio, além de reduzir o desempenho dos classificadores. O principal objetivo desse trabalho é desenvolver um método de remoção de ruído e segmentação em arquivos de áudio digital, com foco nos arquivos gerados pelo método de observação direta, onde um observador grava em áudio todas as ações executadas pelo espécime observado de forma codificada em Bite Categories. Esse método pré-processa os arquivos de áudio a fim de normalizá-los e de reduzir sua dimensionalidade, posteriormente sendo utilizada a rede geradora adversária SEGAN para a remoção dos ruídos. A etapa de segmentação do áudio começa com um pré-processamento que atenua os vales do sinal e enfatiza os picos, de forma similar `a normalização do sinal, seguido da aplicação de uma função de silenciamento de vales, com base no desvio padrão e escore padronizado. A segmentação é realizada a partir de uma função de mapeamento que encontra os tempos de início e fim de cada segmento com base na detecção de silêncios usando janelas deslizantes com sobreposição. Os testes de remoção de ruídos foram realizados através de um estudo duplo-cego, utilizando questionários com escala de Likert unipolar de 5 pontos e uma base de áudios compilada pelo autor, de forma a medir subjetivamente a qualidade do método, onde se obteve uma média 3,56 de 5 na remoção de ruídos e média 4,14 de 5 na qualidade geral do áudio. Os testes de segmentação foram realizados a partir de uma segunda base de áudios compilada pelo autor, onde se obteve um coeficiente de similaridade de Dice de 85,10% para os áudios sem ruído, 77,95% para os áudios ruidosos e 76,12% para os áudios com o ruído removido através da SEGAN. Após a apresentação dos resultados, compara-se o desempenho dos métodos propostos com alguns trabalhos relacionados presentes na literatura..The presence of additive noise is one of the main problems in digital audio recognition systems as they make it difficult to segment the audio relevant portions and may also reduce classifier performance. The main objective of this work is to develop a method of noise removal and segmentation in digital audio files generated by the direct observation method. This method is where an observer records, in audio, all the actions taken by a given specimen, coded in bite categories. This method preprocesses the audio files in order to normalize them and reduce their dimensionality, after which the SEGAN neural network is used to remove the noise. The audio segmentation step begins with a pre-processing that attenuates the signal valleys and emphasizes the peaks, similar to signal normalization. The pre-processing is followed by the application of the valley silencing function, based on the standard deviation and standardized score. Segmentation is performed by using a mapping function that finds the start and end times of each segment, using silence detection and overlapping sliding windows. The noise removal tests were performed through a double-blind study, using questionnaires with an unipolar 5-point Likert scale and an audio dataset compiled by the author, in order to subjectively measure the method’s quality. Quality scores reached an average of 3.56 out of 5 on noise removal and an average of 4.14 out of 5 on overall audio quality. The segmentation tests were performed from a second audio dataset compiled by the author, and obtained Dice scores of 85.10% on the noiseless audios, 77.95% on the noisy audios, and 76.12% on the audios that had their noise removed through the SEGAN network. After the results are presented, a comparison is made between the obtained results and some related works currently present in the literature.Submitted by Daniella Santos (daniella.santos@ufma.br) on 2018-12-19T20:09:22Z No. of bitstreams: 1 MauricioPessoa.pdf: 1872541 bytes, checksum: 277fa0f3699e2920a755b704734701d3 (MD5)Made available in DSpace on 2018-12-19T20:09:22Z (GMT). No. of bitstreams: 1 MauricioPessoa.pdf: 1872541 bytes, checksum: 277fa0f3699e2920a755b704734701d3 (MD5) Previous issue date: 2018-08-23CAPESapplication/pdfporUniversidade Federal do MaranhãoPROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCETUFMABrasilDEPARTAMENTO DE INFORMÁTICA/CCETProcessamento de áudioRemoçao de ruídosSegmentação de áudioRedes geradoras adversáriasWaveletsAudio processingNoise removalAudio segmentationGenerative adversarial networksWaveletsCiência da ComputaçãoRemoção de ruídos aditivos e segmentação de palavras-chave em áudiosAdditive Noise Removal and Keywords Targeting in Audioinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFMAinstname:Universidade Federal do Maranhão (UFMA)instacron:UFMAORIGINALMauricioPessoa.pdfMauricioPessoa.pdfapplication/pdf1872541http://tedebc.ufma.br:8080/bitstream/tede/2469/2/MauricioPessoa.pdf277fa0f3699e2920a755b704734701d3MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82255http://tedebc.ufma.br:8080/bitstream/tede/2469/1/license.txt97eeade1fce43278e63fe063657f8083MD51tede/24692018-12-19 17:10:06.07oai:tede2:tede/2469IExJQ0VOw4dBIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHDp8OjbyBkZXN0YSBsaWNlbsOnYSxvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvciBjb25jZWRlIMOgIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRvIE1hcmFuaMOjbyAoVUZNQSkgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IGRpc3RyaWJ1aXIgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBjb25jb3JkYSBxdWUgYSBVRk1BIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFVGTUEgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgw6AgVUZNQSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBVRk1BLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCkEgVUZNQSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbywgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyBjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgoKRGVjbGFyYSB0YW1iw6ltIHF1ZSB0b2RhcyBhcyBhZmlsaWHDp8O1ZXMgY29ycG9yYXRpdmFzIG91IGluc3RpdHVjaW9uYWlzIGUgdG9kYXMgYXMgZm9udGVzIGRlIGFwb2lvIGZpbmFuY2Vpcm8gYW8gdHJhYmFsaG8gZXN0w6NvIGRldmlkYW1lbnRlIGNpdGFkYXMgb3UgbWVuY2lvbmFkYXMgZSBjZXJ0aWZpY2EgcXVlIG7Do28gaMOhIG5lbmh1bSBpbnRlcmVzc2UgY29tZXJjaWFsIG91IGFzc29jaWF0aXZvIHF1ZSByZXByZXNlbnRlIGNvbmZsaXRvIGRlIGludGVyZXNzZSBlbSBjb25leMOjbyBjb20gbyB0cmFiYWxobyBzdWJtZXRpZG8uCgoKCgoKCgo=Biblioteca Digital de Teses e Dissertaçõeshttps://tedebc.ufma.br/jspui/PUBhttp://tedebc.ufma.br:8080/oai/requestrepositorio@ufma.br||repositorio@ufma.bropendoar:21312018-12-19T20:10:06Biblioteca Digital de Teses e Dissertações da UFMA - Universidade Federal do Maranhão (UFMA)false |
dc.title.por.fl_str_mv |
Remoção de ruídos aditivos e segmentação de palavras-chave em áudios |
dc.title.alternative.eng.fl_str_mv |
Additive Noise Removal and Keywords Targeting in Audio |
title |
Remoção de ruídos aditivos e segmentação de palavras-chave em áudios |
spellingShingle |
Remoção de ruídos aditivos e segmentação de palavras-chave em áudios PESSOA, Maurício Cesar Pinto Processamento de áudio Remoçao de ruídos Segmentação de áudio Redes geradoras adversárias Wavelets Audio processing Noise removal Audio segmentation Generative adversarial networks Wavelets Ciência da Computação |
title_short |
Remoção de ruídos aditivos e segmentação de palavras-chave em áudios |
title_full |
Remoção de ruídos aditivos e segmentação de palavras-chave em áudios |
title_fullStr |
Remoção de ruídos aditivos e segmentação de palavras-chave em áudios |
title_full_unstemmed |
Remoção de ruídos aditivos e segmentação de palavras-chave em áudios |
title_sort |
Remoção de ruídos aditivos e segmentação de palavras-chave em áudios |
author |
PESSOA, Maurício Cesar Pinto |
author_facet |
PESSOA, Maurício Cesar Pinto |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
BOCHARTT, Tiago Bonini |
dc.contributor.advisor1ID.fl_str_mv |
015198330-59 |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/2352727269839328 |
dc.contributor.referee1.fl_str_mv |
BOCHARTT, Tiago Bonini |
dc.contributor.referee1ID.fl_str_mv |
015198330-59 |
dc.contributor.referee1Lattes.fl_str_mv |
http://lattes.cnpq.br/2352727269839328 |
dc.contributor.referee2.fl_str_mv |
BRAZ JUNIOR, Geraldo |
dc.contributor.referee2Lattes.fl_str_mv |
http://lattes.cnpq.br/8287861610873629 |
dc.contributor.referee3.fl_str_mv |
BRANDÃO, André Luiz |
dc.contributor.referee3Lattes.fl_str_mv |
http://lattes.cnpq.br/5132988314756109 |
dc.contributor.authorID.fl_str_mv |
022116873-77 |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/3186828881205839 |
dc.contributor.author.fl_str_mv |
PESSOA, Maurício Cesar Pinto |
contributor_str_mv |
BOCHARTT, Tiago Bonini BOCHARTT, Tiago Bonini BRAZ JUNIOR, Geraldo BRANDÃO, André Luiz |
dc.subject.por.fl_str_mv |
Processamento de áudio Remoçao de ruídos Segmentação de áudio Redes geradoras adversárias Wavelets |
topic |
Processamento de áudio Remoçao de ruídos Segmentação de áudio Redes geradoras adversárias Wavelets Audio processing Noise removal Audio segmentation Generative adversarial networks Wavelets Ciência da Computação |
dc.subject.eng.fl_str_mv |
Audio processing Noise removal Audio segmentation Generative adversarial networks Wavelets |
dc.subject.cnpq.fl_str_mv |
Ciência da Computação |
description |
A presença de ruídos aditivos é um dos principais problemas em sistemas de reconhecimento de áudio digital, pois dificultam a etapa de segmentação dos trechos relevantes de áudio, além de reduzir o desempenho dos classificadores. O principal objetivo desse trabalho é desenvolver um método de remoção de ruído e segmentação em arquivos de áudio digital, com foco nos arquivos gerados pelo método de observação direta, onde um observador grava em áudio todas as ações executadas pelo espécime observado de forma codificada em Bite Categories. Esse método pré-processa os arquivos de áudio a fim de normalizá-los e de reduzir sua dimensionalidade, posteriormente sendo utilizada a rede geradora adversária SEGAN para a remoção dos ruídos. A etapa de segmentação do áudio começa com um pré-processamento que atenua os vales do sinal e enfatiza os picos, de forma similar `a normalização do sinal, seguido da aplicação de uma função de silenciamento de vales, com base no desvio padrão e escore padronizado. A segmentação é realizada a partir de uma função de mapeamento que encontra os tempos de início e fim de cada segmento com base na detecção de silêncios usando janelas deslizantes com sobreposição. Os testes de remoção de ruídos foram realizados através de um estudo duplo-cego, utilizando questionários com escala de Likert unipolar de 5 pontos e uma base de áudios compilada pelo autor, de forma a medir subjetivamente a qualidade do método, onde se obteve uma média 3,56 de 5 na remoção de ruídos e média 4,14 de 5 na qualidade geral do áudio. Os testes de segmentação foram realizados a partir de uma segunda base de áudios compilada pelo autor, onde se obteve um coeficiente de similaridade de Dice de 85,10% para os áudios sem ruído, 77,95% para os áudios ruidosos e 76,12% para os áudios com o ruído removido através da SEGAN. Após a apresentação dos resultados, compara-se o desempenho dos métodos propostos com alguns trabalhos relacionados presentes na literatura.. |
publishDate |
2018 |
dc.date.accessioned.fl_str_mv |
2018-12-19T20:09:22Z |
dc.date.issued.fl_str_mv |
2018-08-23 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
PESSOA, Maurício Cesar Pinto. Remoção de ruídos aditivos e segmentação de palavras-chave em áudios. 2018. 83 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís. |
dc.identifier.uri.fl_str_mv |
https://tedebc.ufma.br/jspui/handle/tede/tede/2469 |
identifier_str_mv |
PESSOA, Maurício Cesar Pinto. Remoção de ruídos aditivos e segmentação de palavras-chave em áudios. 2018. 83 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís. |
url |
https://tedebc.ufma.br/jspui/handle/tede/tede/2469 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal do Maranhão |
dc.publisher.program.fl_str_mv |
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCET |
dc.publisher.initials.fl_str_mv |
UFMA |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
DEPARTAMENTO DE INFORMÁTICA/CCET |
publisher.none.fl_str_mv |
Universidade Federal do Maranhão |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFMA instname:Universidade Federal do Maranhão (UFMA) instacron:UFMA |
instname_str |
Universidade Federal do Maranhão (UFMA) |
instacron_str |
UFMA |
institution |
UFMA |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFMA |
collection |
Biblioteca Digital de Teses e Dissertações da UFMA |
bitstream.url.fl_str_mv |
http://tedebc.ufma.br:8080/bitstream/tede/2469/2/MauricioPessoa.pdf http://tedebc.ufma.br:8080/bitstream/tede/2469/1/license.txt |
bitstream.checksum.fl_str_mv |
277fa0f3699e2920a755b704734701d3 97eeade1fce43278e63fe063657f8083 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFMA - Universidade Federal do Maranhão (UFMA) |
repository.mail.fl_str_mv |
repositorio@ufma.br||repositorio@ufma.br |
_version_ |
1800303796273807360 |