Analysis of text-conditioned music synthesis models generators

Detalhes bibliográficos
Autor(a) principal: Folz, Gert Willem
Data de Publicação: 2024
Tipo de documento: Trabalho de conclusão de curso
Idioma: eng
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/273220
Resumo: Com os recentes avanços na área de modelos de difusão, transformadores, e o crescimento de datasets de larga escala, o campo dos modelos generativos, particularmente na área de geração de texto-para-música, tem apresentado um aumento notável em desenvolvimento e popularidade. Esta tese tem como objetivo conduzir uma análise comparativa extensa dos últimos avanços dos modelos de texto-para-música. A análise será estruturada em torno de várias métricas chaves para avaliar a eficácia de cada modelo, como a qualidade do áudio gerado e a aderência ao texto de entrada. Além dessas métricas, esta análise se aprofundará nas metodologias e tecnologias subjacentes empregadas em cada modelo, fornecendo uma visão abrangente sobre as técnicas e arquiteturas que impulsionam o estado atual da arte na geração de música a partir de texto.
id UFRGS-2_7dbe8bee51cc15e86cf32de97131a23a
oai_identifier_str oai:www.lume.ufrgs.br:10183/273220
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Folz, Gert WillemPimenta, Marcelo Soares2024-03-09T05:03:59Z2024http://hdl.handle.net/10183/273220001198101Com os recentes avanços na área de modelos de difusão, transformadores, e o crescimento de datasets de larga escala, o campo dos modelos generativos, particularmente na área de geração de texto-para-música, tem apresentado um aumento notável em desenvolvimento e popularidade. Esta tese tem como objetivo conduzir uma análise comparativa extensa dos últimos avanços dos modelos de texto-para-música. A análise será estruturada em torno de várias métricas chaves para avaliar a eficácia de cada modelo, como a qualidade do áudio gerado e a aderência ao texto de entrada. Além dessas métricas, esta análise se aprofundará nas metodologias e tecnologias subjacentes empregadas em cada modelo, fornecendo uma visão abrangente sobre as técnicas e arquiteturas que impulsionam o estado atual da arte na geração de música a partir de texto.With the recent advancements in diffusion models, transformers, and the growing largescale datasets, the field of generative models, particularly in the music-to-text context, has seen a remarkable surge in development and popularity. This thesis aims to conduct an extensive comparative analysis of the latest advancements in text-to-music models. The analysis will be structured around several key metrics to assess the effectiveness of each model, such as the quality of the generated audio and adherence to input text. Beyond these metrics, this analysis will delve into the underlying methodologies and technologies employed in each model, providing a comprehensive insight into the techniques and architectures driving the current state-of-the-art in text-to-music generation.application/pdfengAprendizado de máquinaComputação musicalModelos de LinguagemInteligência artificialMachine learning in musicPerceptual audio metricsText-to-music generationAnalysis of text-conditioned music synthesis models generatorsAnálise de modelos generativos de síntese musical condicionados por texto info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2024Ciência da Computação: Ênfase em Engenharia da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001198101.pdf.txt001198101.pdf.txtExtracted Texttext/plain87507http://www.lume.ufrgs.br/bitstream/10183/273220/2/001198101.pdf.txt9a618b654565a67f714ef4b26574c6f9MD52ORIGINAL001198101.pdfTexto completo (inglês)application/pdf3112439http://www.lume.ufrgs.br/bitstream/10183/273220/1/001198101.pdf47b89b9198417bfffaf71ab72b768cacMD5110183/2732202024-03-10 04:54:05.923629oai:www.lume.ufrgs.br:10183/273220Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2024-03-10T07:54:05Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Analysis of text-conditioned music synthesis models generators
dc.title.alternative.pt.fl_str_mv Análise de modelos generativos de síntese musical condicionados por texto
title Analysis of text-conditioned music synthesis models generators
spellingShingle Analysis of text-conditioned music synthesis models generators
Folz, Gert Willem
Aprendizado de máquina
Computação musical
Modelos de Linguagem
Inteligência artificial
Machine learning in music
Perceptual audio metrics
Text-to-music generation
title_short Analysis of text-conditioned music synthesis models generators
title_full Analysis of text-conditioned music synthesis models generators
title_fullStr Analysis of text-conditioned music synthesis models generators
title_full_unstemmed Analysis of text-conditioned music synthesis models generators
title_sort Analysis of text-conditioned music synthesis models generators
author Folz, Gert Willem
author_facet Folz, Gert Willem
author_role author
dc.contributor.author.fl_str_mv Folz, Gert Willem
dc.contributor.advisor1.fl_str_mv Pimenta, Marcelo Soares
contributor_str_mv Pimenta, Marcelo Soares
dc.subject.por.fl_str_mv Aprendizado de máquina
Computação musical
Modelos de Linguagem
Inteligência artificial
topic Aprendizado de máquina
Computação musical
Modelos de Linguagem
Inteligência artificial
Machine learning in music
Perceptual audio metrics
Text-to-music generation
dc.subject.eng.fl_str_mv Machine learning in music
Perceptual audio metrics
Text-to-music generation
description Com os recentes avanços na área de modelos de difusão, transformadores, e o crescimento de datasets de larga escala, o campo dos modelos generativos, particularmente na área de geração de texto-para-música, tem apresentado um aumento notável em desenvolvimento e popularidade. Esta tese tem como objetivo conduzir uma análise comparativa extensa dos últimos avanços dos modelos de texto-para-música. A análise será estruturada em torno de várias métricas chaves para avaliar a eficácia de cada modelo, como a qualidade do áudio gerado e a aderência ao texto de entrada. Além dessas métricas, esta análise se aprofundará nas metodologias e tecnologias subjacentes empregadas em cada modelo, fornecendo uma visão abrangente sobre as técnicas e arquiteturas que impulsionam o estado atual da arte na geração de música a partir de texto.
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-03-09T05:03:59Z
dc.date.issued.fl_str_mv 2024
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/273220
dc.identifier.nrb.pt_BR.fl_str_mv 001198101
url http://hdl.handle.net/10183/273220
identifier_str_mv 001198101
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/273220/2/001198101.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/273220/1/001198101.pdf
bitstream.checksum.fl_str_mv 9a618b654565a67f714ef4b26574c6f9
47b89b9198417bfffaf71ab72b768cac
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224678294945792