A general algorithm for the real-time emulationof pitched musical instruments and the singing voice

Detalhes bibliográficos
Autor(a) principal: Santos, Carlos Henrique Tarjano
Data de Publicação: 2023
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo: http://app.uff.br/riuff/handle/1/29781
Resumo: Instrumentos musicais digitais baseados em amostras representam o atual estado da arte da emulação de instrumentos musicais em tempo real. Embora os melhores instrumentos digitais baseados em amostras apresentem boa qualidade de som, eles apresentam várias desvantagens, como a falta de flexibilidade e as enormes bibliotecas de sons pré-gravados que demandam grandes espaços para armazenamento de arquivos digitais, por exemplo. Nos últimos anos, as abordagens baseadas em inteligência artificial vêm ganhando popularidade. Embora a qualidade e a eficiência dos modelos atuais estejam melhorando constantemente, eles tendem a consumir muitos recursos computacionais e atualmente não são capazes de competir, em termos de qualidade sonora, com instrumentos digitais baseados em amostras. No cerne deste problema está a falta de uma representação apropriada para sinais discretos com alto grau de periodicidade, formulada para aproveitar os resultados que as redes neurais estão demonstrando em áreas como processamento de linguagem natural e visão computacional, onde constituem o estado da arte. Este trabalho apresenta, portanto, tal representação e, a partir dela, desenvolve um conjunto de instrumentos musicais digitais capazes de emular instrumentos reais, além da voz cantada, em tempo real, com requisitos modestos de armazenamento e poder de processamento. Para tanto, é realizado um levantamento da literatura relacionada, especialmente no que diz respeito à área de processamento digital de sinais, e preenche as lacunas que impedem o desenvolvimento de tal representação. Especificamente, são introduzidos novos algoritmos de detecção de envelopes e de segmentação de sinais discretos, desenhado para identificar os pseudo ciclos individuais de sinais semi periódicos. Esses avanços teóricos são empregados na implementação de um framework para a emulação de instrumentos musicais em geral, onde os instrumentos digitais são treinados usando amostras pré-gravadas de instrumentos reais. A qualidade das amostras disponíveis gratuitamente para treinar o algoritmo é uma das limitações do presente trabalho. O trabalho também exemplifica como algoritmos baseados em redes neurais podem ser melhor integrados a áreas tradicionais relacionadas à síntese sonora, e como podem motivar avanços práticos e teóricos nessas áreas.
id UFF-2_17007676f89c7cf5f236cab006228e4d
oai_identifier_str oai:app.uff.br:1/29781
network_acronym_str UFF-2
network_name_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str 2120
spelling A general algorithm for the real-time emulationof pitched musical instruments and the singing voiceSíntese sonora em tempo realProcessamento digital de sinaisRedes neuraisRepresentação discreta de sinaisInstrumento musicalProcessamento de som por computadorInteligência artificialReal-time sound synthesisDigital Signal ProcessingNeural NetworksDiscrete Signal RepresentationInstrumentos musicais digitais baseados em amostras representam o atual estado da arte da emulação de instrumentos musicais em tempo real. Embora os melhores instrumentos digitais baseados em amostras apresentem boa qualidade de som, eles apresentam várias desvantagens, como a falta de flexibilidade e as enormes bibliotecas de sons pré-gravados que demandam grandes espaços para armazenamento de arquivos digitais, por exemplo. Nos últimos anos, as abordagens baseadas em inteligência artificial vêm ganhando popularidade. Embora a qualidade e a eficiência dos modelos atuais estejam melhorando constantemente, eles tendem a consumir muitos recursos computacionais e atualmente não são capazes de competir, em termos de qualidade sonora, com instrumentos digitais baseados em amostras. No cerne deste problema está a falta de uma representação apropriada para sinais discretos com alto grau de periodicidade, formulada para aproveitar os resultados que as redes neurais estão demonstrando em áreas como processamento de linguagem natural e visão computacional, onde constituem o estado da arte. Este trabalho apresenta, portanto, tal representação e, a partir dela, desenvolve um conjunto de instrumentos musicais digitais capazes de emular instrumentos reais, além da voz cantada, em tempo real, com requisitos modestos de armazenamento e poder de processamento. Para tanto, é realizado um levantamento da literatura relacionada, especialmente no que diz respeito à área de processamento digital de sinais, e preenche as lacunas que impedem o desenvolvimento de tal representação. Especificamente, são introduzidos novos algoritmos de detecção de envelopes e de segmentação de sinais discretos, desenhado para identificar os pseudo ciclos individuais de sinais semi periódicos. Esses avanços teóricos são empregados na implementação de um framework para a emulação de instrumentos musicais em geral, onde os instrumentos digitais são treinados usando amostras pré-gravadas de instrumentos reais. A qualidade das amostras disponíveis gratuitamente para treinar o algoritmo é uma das limitações do presente trabalho. O trabalho também exemplifica como algoritmos baseados em redes neurais podem ser melhor integrados a áreas tradicionais relacionadas à síntese sonora, e como podem motivar avanços práticos e teóricos nessas áreas.Sample-based digital musical instruments currently represent the state of the art in real-world instrument emulation. While the best sample-based digital instruments present good sound quality, they have several drawbacks, such as the lack of flexibility, and the huge libraries and storage requirements involved, to name a few. In the last few years, artificial intelligence-based approaches are gaining popularity. While the quality and efficiency of the most recent such models are constantly improving, they tend to be resource-intensive, and are not currently able to compete, quality-wise, with sample-based real-time instruments. At the heart of this problem lies the lack of an appropriate representation for quasi-periodic discrete signals, formulated to take advantage of the capabilities neural networks are demonstrating in areas such as natural language processing and computer vision, where they constitute the state of the art. This work introduces, therefore, such a representation, and develops a set of digital musical instruments capable of emulating real-world instruments and the singing voice in real-time, with modest storage and processing requirements. To do so, this work surveys the related literature, especially concerning digital signal processing, and fills the gaps that hinder the development of such a representation. Specifically, a novel envelope detection algorithm and a discrete signal segmentation algorithm, tailored to identify the individual pseudo cycles of quasi-periodic signals, are introduced. The theoretical advancements are employed in the implementation of a general algorithm for the emulation of real-world instruments, that are trained using samples from real-world instruments and the singing voice. The quality of the freely available samples used to train the algorithm is one of the limitations of the present work. The work also exemplifies how neural networks-based algorithms can be more integrated with traditional areas related to sound synthesis, and how they can motivate practical and theoretical advancements in those areas.181 p.Pereira, ValdecyPessoa, Arthur AlvesMota, Guilherme Lúcio AbelhaRamírez, Miguel ArjonaBarbosa, Vitor AciolySantos, Carlos Henrique Tarjano2023-08-04T13:59:48Z2023-08-04T13:59:48Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfSANTOS, Carlos Henrique Tarjano. A general algorithm for the real-time emulationof pitched musical instruments and the singing voice. 2022. 181 f. Tese (Doutorado em Engenharia de Produção) - Programa de Pós-Graduação em Engenharia de Produção, Escola de Engenharia, Universidade Federal Fluminense, Niterói, 2022http://app.uff.br/riuff/handle/1/29781CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2023-08-04T13:59:51Zoai:app.uff.br:1/29781Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202023-08-04T13:59:51Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv A general algorithm for the real-time emulationof pitched musical instruments and the singing voice
title A general algorithm for the real-time emulationof pitched musical instruments and the singing voice
spellingShingle A general algorithm for the real-time emulationof pitched musical instruments and the singing voice
Santos, Carlos Henrique Tarjano
Síntese sonora em tempo real
Processamento digital de sinais
Redes neurais
Representação discreta de sinais
Instrumento musical
Processamento de som por computador
Inteligência artificial
Real-time sound synthesis
Digital Signal Processing
Neural Networks
Discrete Signal Representation
title_short A general algorithm for the real-time emulationof pitched musical instruments and the singing voice
title_full A general algorithm for the real-time emulationof pitched musical instruments and the singing voice
title_fullStr A general algorithm for the real-time emulationof pitched musical instruments and the singing voice
title_full_unstemmed A general algorithm for the real-time emulationof pitched musical instruments and the singing voice
title_sort A general algorithm for the real-time emulationof pitched musical instruments and the singing voice
author Santos, Carlos Henrique Tarjano
author_facet Santos, Carlos Henrique Tarjano
author_role author
dc.contributor.none.fl_str_mv Pereira, Valdecy
Pessoa, Arthur Alves
Mota, Guilherme Lúcio Abelha
Ramírez, Miguel Arjona
Barbosa, Vitor Acioly
dc.contributor.author.fl_str_mv Santos, Carlos Henrique Tarjano
dc.subject.por.fl_str_mv Síntese sonora em tempo real
Processamento digital de sinais
Redes neurais
Representação discreta de sinais
Instrumento musical
Processamento de som por computador
Inteligência artificial
Real-time sound synthesis
Digital Signal Processing
Neural Networks
Discrete Signal Representation
topic Síntese sonora em tempo real
Processamento digital de sinais
Redes neurais
Representação discreta de sinais
Instrumento musical
Processamento de som por computador
Inteligência artificial
Real-time sound synthesis
Digital Signal Processing
Neural Networks
Discrete Signal Representation
description Instrumentos musicais digitais baseados em amostras representam o atual estado da arte da emulação de instrumentos musicais em tempo real. Embora os melhores instrumentos digitais baseados em amostras apresentem boa qualidade de som, eles apresentam várias desvantagens, como a falta de flexibilidade e as enormes bibliotecas de sons pré-gravados que demandam grandes espaços para armazenamento de arquivos digitais, por exemplo. Nos últimos anos, as abordagens baseadas em inteligência artificial vêm ganhando popularidade. Embora a qualidade e a eficiência dos modelos atuais estejam melhorando constantemente, eles tendem a consumir muitos recursos computacionais e atualmente não são capazes de competir, em termos de qualidade sonora, com instrumentos digitais baseados em amostras. No cerne deste problema está a falta de uma representação apropriada para sinais discretos com alto grau de periodicidade, formulada para aproveitar os resultados que as redes neurais estão demonstrando em áreas como processamento de linguagem natural e visão computacional, onde constituem o estado da arte. Este trabalho apresenta, portanto, tal representação e, a partir dela, desenvolve um conjunto de instrumentos musicais digitais capazes de emular instrumentos reais, além da voz cantada, em tempo real, com requisitos modestos de armazenamento e poder de processamento. Para tanto, é realizado um levantamento da literatura relacionada, especialmente no que diz respeito à área de processamento digital de sinais, e preenche as lacunas que impedem o desenvolvimento de tal representação. Especificamente, são introduzidos novos algoritmos de detecção de envelopes e de segmentação de sinais discretos, desenhado para identificar os pseudo ciclos individuais de sinais semi periódicos. Esses avanços teóricos são empregados na implementação de um framework para a emulação de instrumentos musicais em geral, onde os instrumentos digitais são treinados usando amostras pré-gravadas de instrumentos reais. A qualidade das amostras disponíveis gratuitamente para treinar o algoritmo é uma das limitações do presente trabalho. O trabalho também exemplifica como algoritmos baseados em redes neurais podem ser melhor integrados a áreas tradicionais relacionadas à síntese sonora, e como podem motivar avanços práticos e teóricos nessas áreas.
publishDate 2023
dc.date.none.fl_str_mv 2023-08-04T13:59:48Z
2023-08-04T13:59:48Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SANTOS, Carlos Henrique Tarjano. A general algorithm for the real-time emulationof pitched musical instruments and the singing voice. 2022. 181 f. Tese (Doutorado em Engenharia de Produção) - Programa de Pós-Graduação em Engenharia de Produção, Escola de Engenharia, Universidade Federal Fluminense, Niterói, 2022
http://app.uff.br/riuff/handle/1/29781
identifier_str_mv SANTOS, Carlos Henrique Tarjano. A general algorithm for the real-time emulationof pitched musical instruments and the singing voice. 2022. 181 f. Tese (Doutorado em Engenharia de Produção) - Programa de Pós-Graduação em Engenharia de Produção, Escola de Engenharia, Universidade Federal Fluminense, Niterói, 2022
url http://app.uff.br/riuff/handle/1/29781
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC-BY-SA
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)
instname:Universidade Federal Fluminense (UFF)
instacron:UFF
instname_str Universidade Federal Fluminense (UFF)
instacron_str UFF
institution UFF
reponame_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv riuff@id.uff.br
_version_ 1807838695053590528