A general algorithm for the real-time emulationof pitched musical instruments and the singing voice

Santos, Carlos Henrique Tarjano

A general algorithm for the real-time emulationof pitched musical instruments and the singing voice

Detalhes bibliográficos
Autor(a) principal:	Santos, Carlos Henrique Tarjano
Data de Publicação:	2023
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo:	http://app.uff.br/riuff/handle/1/29781
Resumo:	Instrumentos musicais digitais baseados em amostras representam o atual estado da arte da emulação de instrumentos musicais em tempo real. Embora os melhores instrumentos digitais baseados em amostras apresentem boa qualidade de som, eles apresentam várias desvantagens, como a falta de flexibilidade e as enormes bibliotecas de sons pré-gravados que demandam grandes espaços para armazenamento de arquivos digitais, por exemplo. Nos últimos anos, as abordagens baseadas em inteligência artificial vêm ganhando popularidade. Embora a qualidade e a eficiência dos modelos atuais estejam melhorando constantemente, eles tendem a consumir muitos recursos computacionais e atualmente não são capazes de competir, em termos de qualidade sonora, com instrumentos digitais baseados em amostras. No cerne deste problema está a falta de uma representação apropriada para sinais discretos com alto grau de periodicidade, formulada para aproveitar os resultados que as redes neurais estão demonstrando em áreas como processamento de linguagem natural e visão computacional, onde constituem o estado da arte. Este trabalho apresenta, portanto, tal representação e, a partir dela, desenvolve um conjunto de instrumentos musicais digitais capazes de emular instrumentos reais, além da voz cantada, em tempo real, com requisitos modestos de armazenamento e poder de processamento. Para tanto, é realizado um levantamento da literatura relacionada, especialmente no que diz respeito à área de processamento digital de sinais, e preenche as lacunas que impedem o desenvolvimento de tal representação. Especificamente, são introduzidos novos algoritmos de detecção de envelopes e de segmentação de sinais discretos, desenhado para identificar os pseudo ciclos individuais de sinais semi periódicos. Esses avanços teóricos são empregados na implementação de um framework para a emulação de instrumentos musicais em geral, onde os instrumentos digitais são treinados usando amostras pré-gravadas de instrumentos reais. A qualidade das amostras disponíveis gratuitamente para treinar o algoritmo é uma das limitações do presente trabalho. O trabalho também exemplifica como algoritmos baseados em redes neurais podem ser melhor integrados a áreas tradicionais relacionadas à síntese sonora, e como podem motivar avanços práticos e teóricos nessas áreas.

Metadados do item

id	UFF-2_17007676f89c7cf5f236cab006228e4d
oai_identifier_str	oai:app.uff.br:1/29781
network_acronym_str	UFF-2
network_name_str	Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str	2120
spelling	A general algorithm for the real-time emulationof pitched musical instruments and the singing voiceSíntese sonora em tempo realProcessamento digital de sinaisRedes neuraisRepresentação discreta de sinaisInstrumento musicalProcessamento de som por computadorInteligência artificialReal-time sound synthesisDigital Signal ProcessingNeural NetworksDiscrete Signal RepresentationInstrumentos musicais digitais baseados em amostras representam o atual estado da arte da emulação de instrumentos musicais em tempo real. Embora os melhores instrumentos digitais baseados em amostras apresentem boa qualidade de som, eles apresentam várias desvantagens, como a falta de flexibilidade e as enormes bibliotecas de sons pré-gravados que demandam grandes espaços para armazenamento de arquivos digitais, por exemplo. Nos últimos anos, as abordagens baseadas em inteligência artificial vêm ganhando popularidade. Embora a qualidade e a eficiência dos modelos atuais estejam melhorando constantemente, eles tendem a consumir muitos recursos computacionais e atualmente não são capazes de competir, em termos de qualidade sonora, com instrumentos digitais baseados em amostras. No cerne deste problema está a falta de uma representação apropriada para sinais discretos com alto grau de periodicidade, formulada para aproveitar os resultados que as redes neurais estão demonstrando em áreas como processamento de linguagem natural e visão computacional, onde constituem o estado da arte. Este trabalho apresenta, portanto, tal representação e, a partir dela, desenvolve um conjunto de instrumentos musicais digitais capazes de emular instrumentos reais, além da voz cantada, em tempo real, com requisitos modestos de armazenamento e poder de processamento. Para tanto, é realizado um levantamento da literatura relacionada, especialmente no que diz respeito à área de processamento digital de sinais, e preenche as lacunas que impedem o desenvolvimento de tal representação. Especificamente, são introduzidos novos algoritmos de detecção de envelopes e de segmentação de sinais discretos, desenhado para identificar os pseudo ciclos individuais de sinais semi periódicos. Esses avanços teóricos são empregados na implementação de um framework para a emulação de instrumentos musicais em geral, onde os instrumentos digitais são treinados usando amostras pré-gravadas de instrumentos reais. A qualidade das amostras disponíveis gratuitamente para treinar o algoritmo é uma das limitações do presente trabalho. O trabalho também exemplifica como algoritmos baseados em redes neurais podem ser melhor integrados a áreas tradicionais relacionadas à síntese sonora, e como podem motivar avanços práticos e teóricos nessas áreas.Sample-based digital musical instruments currently represent the state of the art in real-world instrument emulation. While the best sample-based digital instruments present good sound quality, they have several drawbacks, such as the lack of flexibility, and the huge libraries and storage requirements involved, to name a few. In the last few years, artificial intelligence-based approaches are gaining popularity. While the quality and efficiency of the most recent such models are constantly improving, they tend to be resource-intensive, and are not currently able to compete, quality-wise, with sample-based real-time instruments. At the heart of this problem lies the lack of an appropriate representation for quasi-periodic discrete signals, formulated to take advantage of the capabilities neural networks are demonstrating in areas such as natural language processing and computer vision, where they constitute the state of the art. This work introduces, therefore, such a representation, and develops a set of digital musical instruments capable of emulating real-world instruments and the singing voice in real-time, with modest storage and processing requirements. To do so, this work surveys the related literature, especially concerning digital signal processing, and fills the gaps that hinder the development of such a representation. Specifically, a novel envelope detection algorithm and a discrete signal segmentation algorithm, tailored to identify the individual pseudo cycles of quasi-periodic signals, are introduced. The theoretical advancements are employed in the implementation of a general algorithm for the emulation of real-world instruments, that are trained using samples from real-world instruments and the singing voice. The quality of the freely available samples used to train the algorithm is one of the limitations of the present work. The work also exemplifies how neural networks-based algorithms can be more integrated with traditional areas related to sound synthesis, and how they can motivate practical and theoretical advancements in those areas.181 p.Pereira, ValdecyPessoa, Arthur AlvesMota, Guilherme Lúcio AbelhaRamírez, Miguel ArjonaBarbosa, Vitor AciolySantos, Carlos Henrique Tarjano2023-08-04T13:59:48Z2023-08-04T13:59:48Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfSANTOS, Carlos Henrique Tarjano. A general algorithm for the real-time emulationof pitched musical instruments and the singing voice. 2022. 181 f. Tese (Doutorado em Engenharia de Produção) - Programa de Pós-Graduação em Engenharia de Produção, Escola de Engenharia, Universidade Federal Fluminense, Niterói, 2022http://app.uff.br/riuff/handle/1/29781CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2023-08-04T13:59:51Zoai:app.uff.br:1/29781Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202024-08-19T10:48:52.953248Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv	A general algorithm for the real-time emulationof pitched musical instruments and the singing voice
title	A general algorithm for the real-time emulationof pitched musical instruments and the singing voice
spellingShingle	A general algorithm for the real-time emulationof pitched musical instruments and the singing voice Santos, Carlos Henrique Tarjano Síntese sonora em tempo real Processamento digital de sinais Redes neurais Representação discreta de sinais Instrumento musical Processamento de som por computador Inteligência artificial Real-time sound synthesis Digital Signal Processing Neural Networks Discrete Signal Representation
title_short	A general algorithm for the real-time emulationof pitched musical instruments and the singing voice
title_full	A general algorithm for the real-time emulationof pitched musical instruments and the singing voice
title_fullStr	A general algorithm for the real-time emulationof pitched musical instruments and the singing voice
title_full_unstemmed	A general algorithm for the real-time emulationof pitched musical instruments and the singing voice
title_sort	A general algorithm for the real-time emulationof pitched musical instruments and the singing voice
author	Santos, Carlos Henrique Tarjano
author_facet	Santos, Carlos Henrique Tarjano
author_role	author
dc.contributor.none.fl_str_mv	Pereira, Valdecy Pessoa, Arthur Alves Mota, Guilherme Lúcio Abelha Ramírez, Miguel Arjona Barbosa, Vitor Acioly
dc.contributor.author.fl_str_mv	Santos, Carlos Henrique Tarjano
dc.subject.por.fl_str_mv	Síntese sonora em tempo real Processamento digital de sinais Redes neurais Representação discreta de sinais Instrumento musical Processamento de som por computador Inteligência artificial Real-time sound synthesis Digital Signal Processing Neural Networks Discrete Signal Representation
topic	Síntese sonora em tempo real Processamento digital de sinais Redes neurais Representação discreta de sinais Instrumento musical Processamento de som por computador Inteligência artificial Real-time sound synthesis Digital Signal Processing Neural Networks Discrete Signal Representation
description	Instrumentos musicais digitais baseados em amostras representam o atual estado da arte da emulação de instrumentos musicais em tempo real. Embora os melhores instrumentos digitais baseados em amostras apresentem boa qualidade de som, eles apresentam várias desvantagens, como a falta de flexibilidade e as enormes bibliotecas de sons pré-gravados que demandam grandes espaços para armazenamento de arquivos digitais, por exemplo. Nos últimos anos, as abordagens baseadas em inteligência artificial vêm ganhando popularidade. Embora a qualidade e a eficiência dos modelos atuais estejam melhorando constantemente, eles tendem a consumir muitos recursos computacionais e atualmente não são capazes de competir, em termos de qualidade sonora, com instrumentos digitais baseados em amostras. No cerne deste problema está a falta de uma representação apropriada para sinais discretos com alto grau de periodicidade, formulada para aproveitar os resultados que as redes neurais estão demonstrando em áreas como processamento de linguagem natural e visão computacional, onde constituem o estado da arte. Este trabalho apresenta, portanto, tal representação e, a partir dela, desenvolve um conjunto de instrumentos musicais digitais capazes de emular instrumentos reais, além da voz cantada, em tempo real, com requisitos modestos de armazenamento e poder de processamento. Para tanto, é realizado um levantamento da literatura relacionada, especialmente no que diz respeito à área de processamento digital de sinais, e preenche as lacunas que impedem o desenvolvimento de tal representação. Especificamente, são introduzidos novos algoritmos de detecção de envelopes e de segmentação de sinais discretos, desenhado para identificar os pseudo ciclos individuais de sinais semi periódicos. Esses avanços teóricos são empregados na implementação de um framework para a emulação de instrumentos musicais em geral, onde os instrumentos digitais são treinados usando amostras pré-gravadas de instrumentos reais. A qualidade das amostras disponíveis gratuitamente para treinar o algoritmo é uma das limitações do presente trabalho. O trabalho também exemplifica como algoritmos baseados em redes neurais podem ser melhor integrados a áreas tradicionais relacionadas à síntese sonora, e como podem motivar avanços práticos e teóricos nessas áreas.
publishDate	2023
dc.date.none.fl_str_mv	2023-08-04T13:59:48Z 2023-08-04T13:59:48Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	SANTOS, Carlos Henrique Tarjano. A general algorithm for the real-time emulationof pitched musical instruments and the singing voice. 2022. 181 f. Tese (Doutorado em Engenharia de Produção) - Programa de Pós-Graduação em Engenharia de Produção, Escola de Engenharia, Universidade Federal Fluminense, Niterói, 2022 http://app.uff.br/riuff/handle/1/29781
identifier_str_mv	SANTOS, Carlos Henrique Tarjano. A general algorithm for the real-time emulationof pitched musical instruments and the singing voice. 2022. 181 f. Tese (Doutorado em Engenharia de Produção) - Programa de Pós-Graduação em Engenharia de Produção, Escola de Engenharia, Universidade Federal Fluminense, Niterói, 2022
url	http://app.uff.br/riuff/handle/1/29781
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	CC-BY-SA info:eu-repo/semantics/openAccess
rights_invalid_str_mv	CC-BY-SA
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF) instname:Universidade Federal Fluminense (UFF) instacron:UFF
instname_str	Universidade Federal Fluminense (UFF)
instacron_str	UFF
institution	UFF
reponame_str	Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection	Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv	Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv	riuff@id.uff.br
_version_	1811823576752324608

A general algorithm for the real-time emulationof pitched musical instruments and the singing voice

Registros relacionados