Remoção de ruídos aditivos e segmentação de palavras-chave em áudios

Detalhes bibliográficos
Autor(a) principal: PESSOA, Maurício Cesar Pinto
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFMA
Texto Completo: https://tedebc.ufma.br/jspui/handle/tede/tede/2469
Resumo: A presença de ruídos aditivos é um dos principais problemas em sistemas de reconhecimento de áudio digital, pois dificultam a etapa de segmentação dos trechos relevantes de áudio, além de reduzir o desempenho dos classificadores. O principal objetivo desse trabalho é desenvolver um método de remoção de ruído e segmentação em arquivos de áudio digital, com foco nos arquivos gerados pelo método de observação direta, onde um observador grava em áudio todas as ações executadas pelo espécime observado de forma codificada em Bite Categories. Esse método pré-processa os arquivos de áudio a fim de normalizá-los e de reduzir sua dimensionalidade, posteriormente sendo utilizada a rede geradora adversária SEGAN para a remoção dos ruídos. A etapa de segmentação do áudio começa com um pré-processamento que atenua os vales do sinal e enfatiza os picos, de forma similar `a normalização do sinal, seguido da aplicação de uma função de silenciamento de vales, com base no desvio padrão e escore padronizado. A segmentação é realizada a partir de uma função de mapeamento que encontra os tempos de início e fim de cada segmento com base na detecção de silêncios usando janelas deslizantes com sobreposição. Os testes de remoção de ruídos foram realizados através de um estudo duplo-cego, utilizando questionários com escala de Likert unipolar de 5 pontos e uma base de áudios compilada pelo autor, de forma a medir subjetivamente a qualidade do método, onde se obteve uma média 3,56 de 5 na remoção de ruídos e média 4,14 de 5 na qualidade geral do áudio. Os testes de segmentação foram realizados a partir de uma segunda base de áudios compilada pelo autor, onde se obteve um coeficiente de similaridade de Dice de 85,10% para os áudios sem ruído, 77,95% para os áudios ruidosos e 76,12% para os áudios com o ruído removido através da SEGAN. Após a apresentação dos resultados, compara-se o desempenho dos métodos propostos com alguns trabalhos relacionados presentes na literatura..
id UFMA_21f9947d886683793b896631d8eca476
oai_identifier_str oai:tede2:tede/2469
network_acronym_str UFMA
network_name_str Biblioteca Digital de Teses e Dissertações da UFMA
repository_id_str 2131
spelling BOCHARTT, Tiago Bonini015198330-59http://lattes.cnpq.br/2352727269839328BOCHARTT, Tiago Bonini015198330-59http://lattes.cnpq.br/2352727269839328BRAZ JUNIOR, Geraldohttp://lattes.cnpq.br/8287861610873629BRANDÃO, André Luizhttp://lattes.cnpq.br/5132988314756109022116873-77http://lattes.cnpq.br/3186828881205839PESSOA, Maurício Cesar Pinto2018-12-19T20:09:22Z2018-08-23PESSOA, Maurício Cesar Pinto. Remoção de ruídos aditivos e segmentação de palavras-chave em áudios. 2018. 83 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís.https://tedebc.ufma.br/jspui/handle/tede/tede/2469A presença de ruídos aditivos é um dos principais problemas em sistemas de reconhecimento de áudio digital, pois dificultam a etapa de segmentação dos trechos relevantes de áudio, além de reduzir o desempenho dos classificadores. O principal objetivo desse trabalho é desenvolver um método de remoção de ruído e segmentação em arquivos de áudio digital, com foco nos arquivos gerados pelo método de observação direta, onde um observador grava em áudio todas as ações executadas pelo espécime observado de forma codificada em Bite Categories. Esse método pré-processa os arquivos de áudio a fim de normalizá-los e de reduzir sua dimensionalidade, posteriormente sendo utilizada a rede geradora adversária SEGAN para a remoção dos ruídos. A etapa de segmentação do áudio começa com um pré-processamento que atenua os vales do sinal e enfatiza os picos, de forma similar `a normalização do sinal, seguido da aplicação de uma função de silenciamento de vales, com base no desvio padrão e escore padronizado. A segmentação é realizada a partir de uma função de mapeamento que encontra os tempos de início e fim de cada segmento com base na detecção de silêncios usando janelas deslizantes com sobreposição. Os testes de remoção de ruídos foram realizados através de um estudo duplo-cego, utilizando questionários com escala de Likert unipolar de 5 pontos e uma base de áudios compilada pelo autor, de forma a medir subjetivamente a qualidade do método, onde se obteve uma média 3,56 de 5 na remoção de ruídos e média 4,14 de 5 na qualidade geral do áudio. Os testes de segmentação foram realizados a partir de uma segunda base de áudios compilada pelo autor, onde se obteve um coeficiente de similaridade de Dice de 85,10% para os áudios sem ruído, 77,95% para os áudios ruidosos e 76,12% para os áudios com o ruído removido através da SEGAN. Após a apresentação dos resultados, compara-se o desempenho dos métodos propostos com alguns trabalhos relacionados presentes na literatura..The presence of additive noise is one of the main problems in digital audio recognition systems as they make it difficult to segment the audio relevant portions and may also reduce classifier performance. The main objective of this work is to develop a method of noise removal and segmentation in digital audio files generated by the direct observation method. This method is where an observer records, in audio, all the actions taken by a given specimen, coded in bite categories. This method preprocesses the audio files in order to normalize them and reduce their dimensionality, after which the SEGAN neural network is used to remove the noise. The audio segmentation step begins with a pre-processing that attenuates the signal valleys and emphasizes the peaks, similar to signal normalization. The pre-processing is followed by the application of the valley silencing function, based on the standard deviation and standardized score. Segmentation is performed by using a mapping function that finds the start and end times of each segment, using silence detection and overlapping sliding windows. The noise removal tests were performed through a double-blind study, using questionnaires with an unipolar 5-point Likert scale and an audio dataset compiled by the author, in order to subjectively measure the method’s quality. Quality scores reached an average of 3.56 out of 5 on noise removal and an average of 4.14 out of 5 on overall audio quality. The segmentation tests were performed from a second audio dataset compiled by the author, and obtained Dice scores of 85.10% on the noiseless audios, 77.95% on the noisy audios, and 76.12% on the audios that had their noise removed through the SEGAN network. After the results are presented, a comparison is made between the obtained results and some related works currently present in the literature.Submitted by Daniella Santos (daniella.santos@ufma.br) on 2018-12-19T20:09:22Z No. of bitstreams: 1 MauricioPessoa.pdf: 1872541 bytes, checksum: 277fa0f3699e2920a755b704734701d3 (MD5)Made available in DSpace on 2018-12-19T20:09:22Z (GMT). No. of bitstreams: 1 MauricioPessoa.pdf: 1872541 bytes, checksum: 277fa0f3699e2920a755b704734701d3 (MD5) Previous issue date: 2018-08-23CAPESapplication/pdfporUniversidade Federal do MaranhãoPROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCETUFMABrasilDEPARTAMENTO DE INFORMÁTICA/CCETProcessamento de áudioRemoçao de ruídosSegmentação de áudioRedes geradoras adversáriasWaveletsAudio processingNoise removalAudio segmentationGenerative adversarial networksWaveletsCiência da ComputaçãoRemoção de ruídos aditivos e segmentação de palavras-chave em áudiosAdditive Noise Removal and Keywords Targeting in Audioinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFMAinstname:Universidade Federal do Maranhão (UFMA)instacron:UFMAORIGINALMauricioPessoa.pdfMauricioPessoa.pdfapplication/pdf1872541http://tedebc.ufma.br:8080/bitstream/tede/2469/2/MauricioPessoa.pdf277fa0f3699e2920a755b704734701d3MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82255http://tedebc.ufma.br:8080/bitstream/tede/2469/1/license.txt97eeade1fce43278e63fe063657f8083MD51tede/24692018-12-19 17:10:06.07oai:tede2:tede/2469IExJQ0VOw4dBIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHDp8OjbyBkZXN0YSBsaWNlbsOnYSxvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvciBjb25jZWRlIMOgIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRvIE1hcmFuaMOjbyAoVUZNQSkgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IGRpc3RyaWJ1aXIgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBjb25jb3JkYSBxdWUgYSBVRk1BIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFVGTUEgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgw6AgVUZNQSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBVRk1BLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCkEgVUZNQSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbywgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyBjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgoKRGVjbGFyYSB0YW1iw6ltIHF1ZSB0b2RhcyBhcyBhZmlsaWHDp8O1ZXMgY29ycG9yYXRpdmFzIG91IGluc3RpdHVjaW9uYWlzIGUgdG9kYXMgYXMgZm9udGVzIGRlIGFwb2lvIGZpbmFuY2Vpcm8gYW8gdHJhYmFsaG8gZXN0w6NvIGRldmlkYW1lbnRlIGNpdGFkYXMgb3UgbWVuY2lvbmFkYXMgZSBjZXJ0aWZpY2EgcXVlIG7Do28gaMOhIG5lbmh1bSBpbnRlcmVzc2UgY29tZXJjaWFsIG91IGFzc29jaWF0aXZvIHF1ZSByZXByZXNlbnRlIGNvbmZsaXRvIGRlIGludGVyZXNzZSBlbSBjb25leMOjbyBjb20gbyB0cmFiYWxobyBzdWJtZXRpZG8uCgoKCgoKCgo=Biblioteca Digital de Teses e Dissertaçõeshttps://tedebc.ufma.br/jspui/PUBhttp://tedebc.ufma.br:8080/oai/requestrepositorio@ufma.br||repositorio@ufma.bropendoar:21312018-12-19T20:10:06Biblioteca Digital de Teses e Dissertações da UFMA - Universidade Federal do Maranhão (UFMA)false
dc.title.por.fl_str_mv Remoção de ruídos aditivos e segmentação de palavras-chave em áudios
dc.title.alternative.eng.fl_str_mv Additive Noise Removal and Keywords Targeting in Audio
title Remoção de ruídos aditivos e segmentação de palavras-chave em áudios
spellingShingle Remoção de ruídos aditivos e segmentação de palavras-chave em áudios
PESSOA, Maurício Cesar Pinto
Processamento de áudio
Remoçao de ruídos
Segmentação de áudio
Redes geradoras adversárias
Wavelets
Audio processing
Noise removal
Audio segmentation
Generative adversarial networks
Wavelets
Ciência da Computação
title_short Remoção de ruídos aditivos e segmentação de palavras-chave em áudios
title_full Remoção de ruídos aditivos e segmentação de palavras-chave em áudios
title_fullStr Remoção de ruídos aditivos e segmentação de palavras-chave em áudios
title_full_unstemmed Remoção de ruídos aditivos e segmentação de palavras-chave em áudios
title_sort Remoção de ruídos aditivos e segmentação de palavras-chave em áudios
author PESSOA, Maurício Cesar Pinto
author_facet PESSOA, Maurício Cesar Pinto
author_role author
dc.contributor.advisor1.fl_str_mv BOCHARTT, Tiago Bonini
dc.contributor.advisor1ID.fl_str_mv 015198330-59
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/2352727269839328
dc.contributor.referee1.fl_str_mv BOCHARTT, Tiago Bonini
dc.contributor.referee1ID.fl_str_mv 015198330-59
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/2352727269839328
dc.contributor.referee2.fl_str_mv BRAZ JUNIOR, Geraldo
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/8287861610873629
dc.contributor.referee3.fl_str_mv BRANDÃO, André Luiz
dc.contributor.referee3Lattes.fl_str_mv http://lattes.cnpq.br/5132988314756109
dc.contributor.authorID.fl_str_mv 022116873-77
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/3186828881205839
dc.contributor.author.fl_str_mv PESSOA, Maurício Cesar Pinto
contributor_str_mv BOCHARTT, Tiago Bonini
BOCHARTT, Tiago Bonini
BRAZ JUNIOR, Geraldo
BRANDÃO, André Luiz
dc.subject.por.fl_str_mv Processamento de áudio
Remoçao de ruídos
Segmentação de áudio
Redes geradoras adversárias
Wavelets
topic Processamento de áudio
Remoçao de ruídos
Segmentação de áudio
Redes geradoras adversárias
Wavelets
Audio processing
Noise removal
Audio segmentation
Generative adversarial networks
Wavelets
Ciência da Computação
dc.subject.eng.fl_str_mv Audio processing
Noise removal
Audio segmentation
Generative adversarial networks
Wavelets
dc.subject.cnpq.fl_str_mv Ciência da Computação
description A presença de ruídos aditivos é um dos principais problemas em sistemas de reconhecimento de áudio digital, pois dificultam a etapa de segmentação dos trechos relevantes de áudio, além de reduzir o desempenho dos classificadores. O principal objetivo desse trabalho é desenvolver um método de remoção de ruído e segmentação em arquivos de áudio digital, com foco nos arquivos gerados pelo método de observação direta, onde um observador grava em áudio todas as ações executadas pelo espécime observado de forma codificada em Bite Categories. Esse método pré-processa os arquivos de áudio a fim de normalizá-los e de reduzir sua dimensionalidade, posteriormente sendo utilizada a rede geradora adversária SEGAN para a remoção dos ruídos. A etapa de segmentação do áudio começa com um pré-processamento que atenua os vales do sinal e enfatiza os picos, de forma similar `a normalização do sinal, seguido da aplicação de uma função de silenciamento de vales, com base no desvio padrão e escore padronizado. A segmentação é realizada a partir de uma função de mapeamento que encontra os tempos de início e fim de cada segmento com base na detecção de silêncios usando janelas deslizantes com sobreposição. Os testes de remoção de ruídos foram realizados através de um estudo duplo-cego, utilizando questionários com escala de Likert unipolar de 5 pontos e uma base de áudios compilada pelo autor, de forma a medir subjetivamente a qualidade do método, onde se obteve uma média 3,56 de 5 na remoção de ruídos e média 4,14 de 5 na qualidade geral do áudio. Os testes de segmentação foram realizados a partir de uma segunda base de áudios compilada pelo autor, onde se obteve um coeficiente de similaridade de Dice de 85,10% para os áudios sem ruído, 77,95% para os áudios ruidosos e 76,12% para os áudios com o ruído removido através da SEGAN. Após a apresentação dos resultados, compara-se o desempenho dos métodos propostos com alguns trabalhos relacionados presentes na literatura..
publishDate 2018
dc.date.accessioned.fl_str_mv 2018-12-19T20:09:22Z
dc.date.issued.fl_str_mv 2018-08-23
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv PESSOA, Maurício Cesar Pinto. Remoção de ruídos aditivos e segmentação de palavras-chave em áudios. 2018. 83 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís.
dc.identifier.uri.fl_str_mv https://tedebc.ufma.br/jspui/handle/tede/tede/2469
identifier_str_mv PESSOA, Maurício Cesar Pinto. Remoção de ruídos aditivos e segmentação de palavras-chave em áudios. 2018. 83 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís.
url https://tedebc.ufma.br/jspui/handle/tede/tede/2469
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Maranhão
dc.publisher.program.fl_str_mv PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCET
dc.publisher.initials.fl_str_mv UFMA
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv DEPARTAMENTO DE INFORMÁTICA/CCET
publisher.none.fl_str_mv Universidade Federal do Maranhão
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFMA
instname:Universidade Federal do Maranhão (UFMA)
instacron:UFMA
instname_str Universidade Federal do Maranhão (UFMA)
instacron_str UFMA
institution UFMA
reponame_str Biblioteca Digital de Teses e Dissertações da UFMA
collection Biblioteca Digital de Teses e Dissertações da UFMA
bitstream.url.fl_str_mv http://tedebc.ufma.br:8080/bitstream/tede/2469/2/MauricioPessoa.pdf
http://tedebc.ufma.br:8080/bitstream/tede/2469/1/license.txt
bitstream.checksum.fl_str_mv 277fa0f3699e2920a755b704734701d3
97eeade1fce43278e63fe063657f8083
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFMA - Universidade Federal do Maranhão (UFMA)
repository.mail.fl_str_mv repositorio@ufma.br||repositorio@ufma.br
_version_ 1800303796273807360