Using Autotagging for Classification of Vocals in Music Signals

Detalhes bibliográficos
Autor(a) principal: Nuno Pinto Hespanhol Lopes dos Santos
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://repositorio-aberto.up.pt/handle/10216/68734
Resumo: A sociedade moderna mudou drasticamente a maneira como consome música. Durante estes últimos anos, os ouvintes tornaram-se mais exigentes em relação ao número de músicas que querem ter acessíveis e querem acedê-las mais rapidamente do que sempre. O ouvinte moderno habituou-se a funcionalidades como recomendação automática de música e a possibilidade de pesquisar músicas com características, como por exemplo, female vocals'' e ambient''. Este tipo de funcionalidades só foram tornadas realidade devido a sofisticados algoritmos de autotagging. Contudo, existe uma crença pela comunidade de investigação que estes algoritmos reportam muitas vezes resultados demasiadamente otimistas. Este trabalho aborda este problema, no contexto de deteção automática de voz, usando métodos de avaliação raramente vistos na literatura.Três métodos são conduzidos para a avaliação do modelo de classificação desenvolvido: validação entre o mesmo dataset, validação entre datasets e filtros. A avaliação entre datasets mostra que o conceito de vocais é de uma maneira geral específico por dataset em vez de universal, como seria de esperar. A experiência dos filtros, que consiste em iterativamente aplicar um \emph{filterbank} aleatório, mostra drásticas baixas na performance, em alguns casos, de um f-score global de 0.72 para 0.27. Contudo, estes filtros são mostrados que não afectam a capacidade do ouvido humana de distinguir vocais, através da condução de uma experiência perceptiva com mais de 150 candidatos.Adicionalmente, é realizada também uma comparação entre dois métodos de binarização - máximo e limite dinâmico - que não mostra uma diferença significativa entre eles.Os resultados são reportados em três datasets que foram largamente utilizados pela comunidade de investigação, sobre os quais é realizado um mapeamento das suas tags originais para o domínio vocals e que é posto disponível para outros investigadores.
id RCAP_73ed8f0bb2a4f1200761f95994e5531f
oai_identifier_str oai:repositorio-aberto.up.pt:10216/68734
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Using Autotagging for Classification of Vocals in Music SignalsEngenharia electrotécnica, electrónica e informáticaElectrical engineering, Electronic engineering, Information engineeringA sociedade moderna mudou drasticamente a maneira como consome música. Durante estes últimos anos, os ouvintes tornaram-se mais exigentes em relação ao número de músicas que querem ter acessíveis e querem acedê-las mais rapidamente do que sempre. O ouvinte moderno habituou-se a funcionalidades como recomendação automática de música e a possibilidade de pesquisar músicas com características, como por exemplo, female vocals'' e ambient''. Este tipo de funcionalidades só foram tornadas realidade devido a sofisticados algoritmos de autotagging. Contudo, existe uma crença pela comunidade de investigação que estes algoritmos reportam muitas vezes resultados demasiadamente otimistas. Este trabalho aborda este problema, no contexto de deteção automática de voz, usando métodos de avaliação raramente vistos na literatura.Três métodos são conduzidos para a avaliação do modelo de classificação desenvolvido: validação entre o mesmo dataset, validação entre datasets e filtros. A avaliação entre datasets mostra que o conceito de vocais é de uma maneira geral específico por dataset em vez de universal, como seria de esperar. A experiência dos filtros, que consiste em iterativamente aplicar um \emph{filterbank} aleatório, mostra drásticas baixas na performance, em alguns casos, de um f-score global de 0.72 para 0.27. Contudo, estes filtros são mostrados que não afectam a capacidade do ouvido humana de distinguir vocais, através da condução de uma experiência perceptiva com mais de 150 candidatos.Adicionalmente, é realizada também uma comparação entre dois métodos de binarização - máximo e limite dinâmico - que não mostra uma diferença significativa entre eles.Os resultados são reportados em três datasets que foram largamente utilizados pela comunidade de investigação, sobre os quais é realizado um mapeamento das suas tags originais para o domínio vocals e que é posto disponível para outros investigadores.2013-07-122013-07-12T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://repositorio-aberto.up.pt/handle/10216/68734TID:201315432engNuno Pinto Hespanhol Lopes dos Santosinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-29T15:24:01Zoai:repositorio-aberto.up.pt:10216/68734Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T00:22:43.090088Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Using Autotagging for Classification of Vocals in Music Signals
title Using Autotagging for Classification of Vocals in Music Signals
spellingShingle Using Autotagging for Classification of Vocals in Music Signals
Nuno Pinto Hespanhol Lopes dos Santos
Engenharia electrotécnica, electrónica e informática
Electrical engineering, Electronic engineering, Information engineering
title_short Using Autotagging for Classification of Vocals in Music Signals
title_full Using Autotagging for Classification of Vocals in Music Signals
title_fullStr Using Autotagging for Classification of Vocals in Music Signals
title_full_unstemmed Using Autotagging for Classification of Vocals in Music Signals
title_sort Using Autotagging for Classification of Vocals in Music Signals
author Nuno Pinto Hespanhol Lopes dos Santos
author_facet Nuno Pinto Hespanhol Lopes dos Santos
author_role author
dc.contributor.author.fl_str_mv Nuno Pinto Hespanhol Lopes dos Santos
dc.subject.por.fl_str_mv Engenharia electrotécnica, electrónica e informática
Electrical engineering, Electronic engineering, Information engineering
topic Engenharia electrotécnica, electrónica e informática
Electrical engineering, Electronic engineering, Information engineering
description A sociedade moderna mudou drasticamente a maneira como consome música. Durante estes últimos anos, os ouvintes tornaram-se mais exigentes em relação ao número de músicas que querem ter acessíveis e querem acedê-las mais rapidamente do que sempre. O ouvinte moderno habituou-se a funcionalidades como recomendação automática de música e a possibilidade de pesquisar músicas com características, como por exemplo, female vocals'' e ambient''. Este tipo de funcionalidades só foram tornadas realidade devido a sofisticados algoritmos de autotagging. Contudo, existe uma crença pela comunidade de investigação que estes algoritmos reportam muitas vezes resultados demasiadamente otimistas. Este trabalho aborda este problema, no contexto de deteção automática de voz, usando métodos de avaliação raramente vistos na literatura.Três métodos são conduzidos para a avaliação do modelo de classificação desenvolvido: validação entre o mesmo dataset, validação entre datasets e filtros. A avaliação entre datasets mostra que o conceito de vocais é de uma maneira geral específico por dataset em vez de universal, como seria de esperar. A experiência dos filtros, que consiste em iterativamente aplicar um \emph{filterbank} aleatório, mostra drásticas baixas na performance, em alguns casos, de um f-score global de 0.72 para 0.27. Contudo, estes filtros são mostrados que não afectam a capacidade do ouvido humana de distinguir vocais, através da condução de uma experiência perceptiva com mais de 150 candidatos.Adicionalmente, é realizada também uma comparação entre dois métodos de binarização - máximo e limite dinâmico - que não mostra uma diferença significativa entre eles.Os resultados são reportados em três datasets que foram largamente utilizados pela comunidade de investigação, sobre os quais é realizado um mapeamento das suas tags originais para o domínio vocals e que é posto disponível para outros investigadores.
publishDate 2013
dc.date.none.fl_str_mv 2013-07-12
2013-07-12T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio-aberto.up.pt/handle/10216/68734
TID:201315432
url https://repositorio-aberto.up.pt/handle/10216/68734
identifier_str_mv TID:201315432
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799136143296430080