Transcrição musical automática do instrumento de bateria a partir de vídeos

Detalhes bibliográficos
Autor(a) principal: Brito, Eduardo Stein
Data de Publicação: 2019
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/198581
Resumo: Métodos para transcrição automática de música consistem em algoritmos para automaticamente extrair informações de tom e ritmo a partir de áudios e/ou vídeos. Diversas pesquisas e trabalhos desenvolvidos na área propões técnicas eficazes, mas ainda existe espaço para melhorias e algoritmos mais sofisticados. Este trabalho propõe implementar uma nova solução para a transcrição musical automática do instrumento de bateria a partir da análise de vídeos de pessoas tocando este instrumento, e propõe atingir tal objetivo combinando técnicas de processamento de imagem e informações espaciais sobre a movimentação do corpo do músico e as peças da bateria que podem estar sendo tocadas a cada momento. O presente trabalho foca na transcrição do instrumento de bateria a partir apenas de vídeo, mas não áudio; essa suposição é importante pois a bateria é um instrumento cujos sons são frequentemente sobrepostos e não possuem notas bem definidas, como no caso de instrumentos de corda, o que pode dificultar o uso de técnicas baseadas em áudio e análise de frequência para transcrição. Em particular, uma das dificuldades de transcrever automaticamente músicas deste instrumento é que até mesmo as partituras não descrevem as músicas por notas musicais, e sim por qual tambor ou prato deve ser tocado em dado instante. Além disso, ao contrário de instrumentos de corda, nos quais o número de cordas é fixo, a quantidade de tambores e pratos em uma bateria é variável. Nossa implementação supera tais obstáculos com o uso de informação espacial, tais como a determinação de onde estão as peças da bateria e a verificação automática de qual peça foi tocada em cada momento. Além disso, se o áudio estiver disponível, nossa solução poderá ser usada em conjunto com técnicas atuais de transcrição baseadas em áudio. Neste trabalho, através do uso de filtros e máscaras, com auxílio de algoritmo de estimação de pose, foi possível realizar a transcrição de trechos de vídeos de músicos tocando o instrumento de bateria. Iremos apresentar, neste trabalho, as tecnologias empregadas, assim como resultados experimentais, limitações do trabalho e possíveis aplicações do método proposto.
id UFRGS-2_79b2c434895fd7a569f8b2e2232cfe47
oai_identifier_str oai:www.lume.ufrgs.br:10183/198581
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Brito, Eduardo SteinSilva, Bruno Castro da2019-08-29T02:35:05Z2019http://hdl.handle.net/10183/198581001098591Métodos para transcrição automática de música consistem em algoritmos para automaticamente extrair informações de tom e ritmo a partir de áudios e/ou vídeos. Diversas pesquisas e trabalhos desenvolvidos na área propões técnicas eficazes, mas ainda existe espaço para melhorias e algoritmos mais sofisticados. Este trabalho propõe implementar uma nova solução para a transcrição musical automática do instrumento de bateria a partir da análise de vídeos de pessoas tocando este instrumento, e propõe atingir tal objetivo combinando técnicas de processamento de imagem e informações espaciais sobre a movimentação do corpo do músico e as peças da bateria que podem estar sendo tocadas a cada momento. O presente trabalho foca na transcrição do instrumento de bateria a partir apenas de vídeo, mas não áudio; essa suposição é importante pois a bateria é um instrumento cujos sons são frequentemente sobrepostos e não possuem notas bem definidas, como no caso de instrumentos de corda, o que pode dificultar o uso de técnicas baseadas em áudio e análise de frequência para transcrição. Em particular, uma das dificuldades de transcrever automaticamente músicas deste instrumento é que até mesmo as partituras não descrevem as músicas por notas musicais, e sim por qual tambor ou prato deve ser tocado em dado instante. Além disso, ao contrário de instrumentos de corda, nos quais o número de cordas é fixo, a quantidade de tambores e pratos em uma bateria é variável. Nossa implementação supera tais obstáculos com o uso de informação espacial, tais como a determinação de onde estão as peças da bateria e a verificação automática de qual peça foi tocada em cada momento. Além disso, se o áudio estiver disponível, nossa solução poderá ser usada em conjunto com técnicas atuais de transcrição baseadas em áudio. Neste trabalho, através do uso de filtros e máscaras, com auxílio de algoritmo de estimação de pose, foi possível realizar a transcrição de trechos de vídeos de músicos tocando o instrumento de bateria. Iremos apresentar, neste trabalho, as tecnologias empregadas, assim como resultados experimentais, limitações do trabalho e possíveis aplicações do método proposto.Methods for automatic music transcription consist of algorithms to automatically extract tone and rhythm information from audios and/or videos. Several research developed in the field propose effective techniques, but there is still room for improvement and more sophisticated algorithms. This work proposes to implement a new solution for the automatic musical transcription of the drum instrument from the analysis of videos of people playing this instrument, and proposes to achieve this goal by combining image processing techniques and spatial information about the movement of the musician’s body and the parts of the drum that may be being played at any moment. The present work focuses on the transcription of the drum instrument from video only, but not audio; this assumption is important because the drum is an instrument whose sounds are often superimposed and do not have well-defined notes, contrary to the case of string instruments, making it difficult to use audio-based techniques and frequency analysis for transcription. In particular, one of the difficulties of automatically transcribing songs of this instrument is that even the music sheets do not describe the songs by musical notes, but by which drum or cymbal should be played at a given moment. In addition, unlike stringed instruments, in which the number of strings is fixed, the number of drums and cymbals in a drum kit is variable. Our implementation overcomes such obstacles with the use of spatial information, such as determining where the drum parts are and the automatic checking of which part has been touched at each time. In addition, if audio is available, our solution can be used in conjunction with current audio-based transcription techniques. In this work, through the use of filters and masks, with the aid of a pose estimation algorithm, it was possible to perform transcriptions of videos of musicians playing the drums instrument. We will show, in this work, the technologies employed, limitations of our technique, as well as experimental results and possible applications of the proposed method.application/pdfporComputação musicalMúsicaAutomatic music transcriptionPose estimationDrum instrumentImage processingMachine learningTranscrição musical automática do instrumento de bateria a partir de vídeosAutomatic music transcription of the drum instrument from videos info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2019Engenharia de Computaçãograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001098591.pdf.txt001098591.pdf.txtExtracted Texttext/plain143690http://www.lume.ufrgs.br/bitstream/10183/198581/2/001098591.pdf.txtfff09722c792b96804609468a5420488MD52ORIGINAL001098591.pdfTexto completoapplication/pdf14080775http://www.lume.ufrgs.br/bitstream/10183/198581/1/001098591.pdf9f170dd62e15169e5529ceb030b95c37MD5110183/1985812019-08-30 02:35:25.379057oai:www.lume.ufrgs.br:10183/198581Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2019-08-30T05:35:25Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Transcrição musical automática do instrumento de bateria a partir de vídeos
dc.title.alternative.en.fl_str_mv Automatic music transcription of the drum instrument from videos
title Transcrição musical automática do instrumento de bateria a partir de vídeos
spellingShingle Transcrição musical automática do instrumento de bateria a partir de vídeos
Brito, Eduardo Stein
Computação musical
Música
Automatic music transcription
Pose estimation
Drum instrument
Image processing
Machine learning
title_short Transcrição musical automática do instrumento de bateria a partir de vídeos
title_full Transcrição musical automática do instrumento de bateria a partir de vídeos
title_fullStr Transcrição musical automática do instrumento de bateria a partir de vídeos
title_full_unstemmed Transcrição musical automática do instrumento de bateria a partir de vídeos
title_sort Transcrição musical automática do instrumento de bateria a partir de vídeos
author Brito, Eduardo Stein
author_facet Brito, Eduardo Stein
author_role author
dc.contributor.author.fl_str_mv Brito, Eduardo Stein
dc.contributor.advisor1.fl_str_mv Silva, Bruno Castro da
contributor_str_mv Silva, Bruno Castro da
dc.subject.por.fl_str_mv Computação musical
Música
topic Computação musical
Música
Automatic music transcription
Pose estimation
Drum instrument
Image processing
Machine learning
dc.subject.eng.fl_str_mv Automatic music transcription
Pose estimation
Drum instrument
Image processing
Machine learning
description Métodos para transcrição automática de música consistem em algoritmos para automaticamente extrair informações de tom e ritmo a partir de áudios e/ou vídeos. Diversas pesquisas e trabalhos desenvolvidos na área propões técnicas eficazes, mas ainda existe espaço para melhorias e algoritmos mais sofisticados. Este trabalho propõe implementar uma nova solução para a transcrição musical automática do instrumento de bateria a partir da análise de vídeos de pessoas tocando este instrumento, e propõe atingir tal objetivo combinando técnicas de processamento de imagem e informações espaciais sobre a movimentação do corpo do músico e as peças da bateria que podem estar sendo tocadas a cada momento. O presente trabalho foca na transcrição do instrumento de bateria a partir apenas de vídeo, mas não áudio; essa suposição é importante pois a bateria é um instrumento cujos sons são frequentemente sobrepostos e não possuem notas bem definidas, como no caso de instrumentos de corda, o que pode dificultar o uso de técnicas baseadas em áudio e análise de frequência para transcrição. Em particular, uma das dificuldades de transcrever automaticamente músicas deste instrumento é que até mesmo as partituras não descrevem as músicas por notas musicais, e sim por qual tambor ou prato deve ser tocado em dado instante. Além disso, ao contrário de instrumentos de corda, nos quais o número de cordas é fixo, a quantidade de tambores e pratos em uma bateria é variável. Nossa implementação supera tais obstáculos com o uso de informação espacial, tais como a determinação de onde estão as peças da bateria e a verificação automática de qual peça foi tocada em cada momento. Além disso, se o áudio estiver disponível, nossa solução poderá ser usada em conjunto com técnicas atuais de transcrição baseadas em áudio. Neste trabalho, através do uso de filtros e máscaras, com auxílio de algoritmo de estimação de pose, foi possível realizar a transcrição de trechos de vídeos de músicos tocando o instrumento de bateria. Iremos apresentar, neste trabalho, as tecnologias empregadas, assim como resultados experimentais, limitações do trabalho e possíveis aplicações do método proposto.
publishDate 2019
dc.date.accessioned.fl_str_mv 2019-08-29T02:35:05Z
dc.date.issued.fl_str_mv 2019
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/198581
dc.identifier.nrb.pt_BR.fl_str_mv 001098591
url http://hdl.handle.net/10183/198581
identifier_str_mv 001098591
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/198581/2/001098591.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/198581/1/001098591.pdf
bitstream.checksum.fl_str_mv fff09722c792b96804609468a5420488
9f170dd62e15169e5529ceb030b95c37
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224579622895616