Using Autotagging for Classification of Vocals in Music Signals
Autor(a) principal: | |
---|---|
Data de Publicação: | 2013 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://repositorio-aberto.up.pt/handle/10216/68734 |
Resumo: | A sociedade moderna mudou drasticamente a maneira como consome música. Durante estes últimos anos, os ouvintes tornaram-se mais exigentes em relação ao número de músicas que querem ter acessíveis e querem acedê-las mais rapidamente do que sempre. O ouvinte moderno habituou-se a funcionalidades como recomendação automática de música e a possibilidade de pesquisar músicas com características, como por exemplo, female vocals'' e ambient''. Este tipo de funcionalidades só foram tornadas realidade devido a sofisticados algoritmos de autotagging. Contudo, existe uma crença pela comunidade de investigação que estes algoritmos reportam muitas vezes resultados demasiadamente otimistas. Este trabalho aborda este problema, no contexto de deteção automática de voz, usando métodos de avaliação raramente vistos na literatura.Três métodos são conduzidos para a avaliação do modelo de classificação desenvolvido: validação entre o mesmo dataset, validação entre datasets e filtros. A avaliação entre datasets mostra que o conceito de vocais é de uma maneira geral específico por dataset em vez de universal, como seria de esperar. A experiência dos filtros, que consiste em iterativamente aplicar um \emph{filterbank} aleatório, mostra drásticas baixas na performance, em alguns casos, de um f-score global de 0.72 para 0.27. Contudo, estes filtros são mostrados que não afectam a capacidade do ouvido humana de distinguir vocais, através da condução de uma experiência perceptiva com mais de 150 candidatos.Adicionalmente, é realizada também uma comparação entre dois métodos de binarização - máximo e limite dinâmico - que não mostra uma diferença significativa entre eles.Os resultados são reportados em três datasets que foram largamente utilizados pela comunidade de investigação, sobre os quais é realizado um mapeamento das suas tags originais para o domínio vocals e que é posto disponível para outros investigadores. |
id |
RCAP_73ed8f0bb2a4f1200761f95994e5531f |
---|---|
oai_identifier_str |
oai:repositorio-aberto.up.pt:10216/68734 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Using Autotagging for Classification of Vocals in Music SignalsEngenharia electrotécnica, electrónica e informáticaElectrical engineering, Electronic engineering, Information engineeringA sociedade moderna mudou drasticamente a maneira como consome música. Durante estes últimos anos, os ouvintes tornaram-se mais exigentes em relação ao número de músicas que querem ter acessíveis e querem acedê-las mais rapidamente do que sempre. O ouvinte moderno habituou-se a funcionalidades como recomendação automática de música e a possibilidade de pesquisar músicas com características, como por exemplo, female vocals'' e ambient''. Este tipo de funcionalidades só foram tornadas realidade devido a sofisticados algoritmos de autotagging. Contudo, existe uma crença pela comunidade de investigação que estes algoritmos reportam muitas vezes resultados demasiadamente otimistas. Este trabalho aborda este problema, no contexto de deteção automática de voz, usando métodos de avaliação raramente vistos na literatura.Três métodos são conduzidos para a avaliação do modelo de classificação desenvolvido: validação entre o mesmo dataset, validação entre datasets e filtros. A avaliação entre datasets mostra que o conceito de vocais é de uma maneira geral específico por dataset em vez de universal, como seria de esperar. A experiência dos filtros, que consiste em iterativamente aplicar um \emph{filterbank} aleatório, mostra drásticas baixas na performance, em alguns casos, de um f-score global de 0.72 para 0.27. Contudo, estes filtros são mostrados que não afectam a capacidade do ouvido humana de distinguir vocais, através da condução de uma experiência perceptiva com mais de 150 candidatos.Adicionalmente, é realizada também uma comparação entre dois métodos de binarização - máximo e limite dinâmico - que não mostra uma diferença significativa entre eles.Os resultados são reportados em três datasets que foram largamente utilizados pela comunidade de investigação, sobre os quais é realizado um mapeamento das suas tags originais para o domínio vocals e que é posto disponível para outros investigadores.2013-07-122013-07-12T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://repositorio-aberto.up.pt/handle/10216/68734TID:201315432engNuno Pinto Hespanhol Lopes dos Santosinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-29T15:24:01Zoai:repositorio-aberto.up.pt:10216/68734Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T00:22:43.090088Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Using Autotagging for Classification of Vocals in Music Signals |
title |
Using Autotagging for Classification of Vocals in Music Signals |
spellingShingle |
Using Autotagging for Classification of Vocals in Music Signals Nuno Pinto Hespanhol Lopes dos Santos Engenharia electrotécnica, electrónica e informática Electrical engineering, Electronic engineering, Information engineering |
title_short |
Using Autotagging for Classification of Vocals in Music Signals |
title_full |
Using Autotagging for Classification of Vocals in Music Signals |
title_fullStr |
Using Autotagging for Classification of Vocals in Music Signals |
title_full_unstemmed |
Using Autotagging for Classification of Vocals in Music Signals |
title_sort |
Using Autotagging for Classification of Vocals in Music Signals |
author |
Nuno Pinto Hespanhol Lopes dos Santos |
author_facet |
Nuno Pinto Hespanhol Lopes dos Santos |
author_role |
author |
dc.contributor.author.fl_str_mv |
Nuno Pinto Hespanhol Lopes dos Santos |
dc.subject.por.fl_str_mv |
Engenharia electrotécnica, electrónica e informática Electrical engineering, Electronic engineering, Information engineering |
topic |
Engenharia electrotécnica, electrónica e informática Electrical engineering, Electronic engineering, Information engineering |
description |
A sociedade moderna mudou drasticamente a maneira como consome música. Durante estes últimos anos, os ouvintes tornaram-se mais exigentes em relação ao número de músicas que querem ter acessíveis e querem acedê-las mais rapidamente do que sempre. O ouvinte moderno habituou-se a funcionalidades como recomendação automática de música e a possibilidade de pesquisar músicas com características, como por exemplo, female vocals'' e ambient''. Este tipo de funcionalidades só foram tornadas realidade devido a sofisticados algoritmos de autotagging. Contudo, existe uma crença pela comunidade de investigação que estes algoritmos reportam muitas vezes resultados demasiadamente otimistas. Este trabalho aborda este problema, no contexto de deteção automática de voz, usando métodos de avaliação raramente vistos na literatura.Três métodos são conduzidos para a avaliação do modelo de classificação desenvolvido: validação entre o mesmo dataset, validação entre datasets e filtros. A avaliação entre datasets mostra que o conceito de vocais é de uma maneira geral específico por dataset em vez de universal, como seria de esperar. A experiência dos filtros, que consiste em iterativamente aplicar um \emph{filterbank} aleatório, mostra drásticas baixas na performance, em alguns casos, de um f-score global de 0.72 para 0.27. Contudo, estes filtros são mostrados que não afectam a capacidade do ouvido humana de distinguir vocais, através da condução de uma experiência perceptiva com mais de 150 candidatos.Adicionalmente, é realizada também uma comparação entre dois métodos de binarização - máximo e limite dinâmico - que não mostra uma diferença significativa entre eles.Os resultados são reportados em três datasets que foram largamente utilizados pela comunidade de investigação, sobre os quais é realizado um mapeamento das suas tags originais para o domínio vocals e que é posto disponível para outros investigadores. |
publishDate |
2013 |
dc.date.none.fl_str_mv |
2013-07-12 2013-07-12T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://repositorio-aberto.up.pt/handle/10216/68734 TID:201315432 |
url |
https://repositorio-aberto.up.pt/handle/10216/68734 |
identifier_str_mv |
TID:201315432 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799136143296430080 |