Técnicas de deep learning para detecção de eventos em áudio: treino de modelos acústicos a partir de sinais puros

Detalhes bibliográficos
Autor(a) principal: Rijo, Sara Marina Albino
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10174/22275
Resumo: O vídeo é atualmente um dos recursos mais utilizados e em constante expansão no mundo digital, sendo que em 2019 será responsável por 80% do tráfego mundial de Internet. Neste panorama, surgiu a problemática da incapacidade humana e (até agora) tecnológica para descrever, interpretar e interagir com este elevado volume de dados multimédia. Assim, têm sido desenvolvidos esforços para encontrar formas de automatizar e melhorar o processo de análise de conteúdo de vídeo e consequentemente melhorar a eiciência, usabilidade e acessibilidade dos vídeos armazenados por milhões de pessoas em todo o mundo. Este processo pode focar-se na análise do som e imagem em simultâneo ou independentemente. Esta dissertação descreve a concretização de um projecto de análise de som, que consistiu no desenvolvimento e implementação de um sistema de classiicação de áudio utilizando uma abordagem baseada na utilização da waveform do som e redes neuronais, excluindo a convencional fase de extração de características habitualmente utilizada em aprendizagem máquina. Esta metodologia permite ultrapassar as limitações ao nível da ineicência temporal de abordagens típicamente utilizadas. Sendo o áudio um componente de relevo no vídeo, torna-se assim possível detectar e distinguir elementos de destaque, como por exemplo as partes mais cómicas, faladas ou musicais. Elaborou-se também um conjunto de dados de sons exclusivamente para o projecto, tendo em vista colmatar a utilização de dados de ‘laboratório’, isto é, obtidos em ambientes controlados, que induzem a falsos positivos e não representam a estocacidade do som no ‘mundo real’. Os resultados obtidos foram bastante satisfatórios, tanto pela rapidez do processo como pela sua precisão, que atingiu taxas de reconhecimento dos sons na ordem dos 90%; O vídeo é atualmente um dos recursos mais utilizados e em constante expansão no mundo digital, sendo que em 2019 será responsável por 80% do tráfego mundial de Internet. Neste panorama, surgiu a problemática da incapacidade humana e (até agora) tecnológica para descrever, interpretar e interagir com este elevado volume de dados multimédia. Assim, têm sido desenvolvidos esforços para encontrar formas de automatizar e melhorar o processo de análise de conteúdo de vídeo e consequentemente melhorar a eiciência, usabilidade e acessibilidade dos vídeos armazenados por milhões de pessoas em todo o mundo. Este processo pode focar-se na análise do som e imagem em simultâneo ou independentemente. Esta dissertação descreve a concretização de um projecto de análise de som, que consistiu no desenvolvimento e implementação de um sistema de classiicação de áudio utilizando uma abordagem baseada na utilização da waveform do som e redes neuronais, excluindo a convencional fase de extração de características habitualmente utilizada em aprendizagem máquina. Esta metodologia permite ultrapassar as limitações ao nível da ineicência temporal de abordagens típicamente utilizadas. Sendo o áudio um componente de relevo no vídeo, torna-se assim possível detectar e distinguir elementos de destaque, como por exemplo as partes mais cómicas, faladas ou musicais. Elaborou-se também um conjunto de dados de sons exclusivamente para o projecto, tendo em vista colmatar a utilização de dados de ‘laboratório’, isto é, obtidos em ambientes controlados, que induzem a falsos positivos e não representam a estocacidade do som no ‘mundo real’. Os resultados obtidos foram bastante satisfatórios, tanto pela rapidez do processo como pela sua precisão, que atingiu taxas de reconhecimento dos sons na ordem dos 90%; Abstract Deep Learning for Sound Event Detection Training acoustic models on waveforms Video is currently one of the most used media resources, it’s use is expanding worldwide and predictions point that by 2019 video will be responsible for 80% of the world’s internet traic. With this in mind the problem of the impossibility for humans and technology (so far) to describe, interpret and interact with this amount of multimedia data rouse. Thus eforts have been made to ind ways to automate and improve the video content analysis process and consequently better the eiciency, usability and accessibility of video stored by millions of people arround the world. This process can focus on the simultaneous analysis of image and sound or independently. This dissertation describes a project that consisted in the development and implementation of an audio classiication system using an emerging approach based on the use of the sound waveform and neural networks, excluding the convetional feature extraction phase normally used in machine learning. As the audio is an important component of video, this system allows detection of important elements like the funnyest parts, where is speech and where is music. The results were very satisfactory, both in terms of processing speed and precision, that reached classiication scores arround 90%.
id RCAP_5ac8de984313d02c2c0c52b4340a903b
oai_identifier_str oai:dspace.uevora.pt:10174/22275
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Técnicas de deep learning para detecção de eventos em áudio: treino de modelos acústicos a partir de sinais purosRedes neuronais profundasClassificação de somAprendizagem máquinaDados reaisAlta dimensionalidadeDeep neural networksSound classificationMachine learningReal dataHigh dimensionalityO vídeo é atualmente um dos recursos mais utilizados e em constante expansão no mundo digital, sendo que em 2019 será responsável por 80% do tráfego mundial de Internet. Neste panorama, surgiu a problemática da incapacidade humana e (até agora) tecnológica para descrever, interpretar e interagir com este elevado volume de dados multimédia. Assim, têm sido desenvolvidos esforços para encontrar formas de automatizar e melhorar o processo de análise de conteúdo de vídeo e consequentemente melhorar a eiciência, usabilidade e acessibilidade dos vídeos armazenados por milhões de pessoas em todo o mundo. Este processo pode focar-se na análise do som e imagem em simultâneo ou independentemente. Esta dissertação descreve a concretização de um projecto de análise de som, que consistiu no desenvolvimento e implementação de um sistema de classiicação de áudio utilizando uma abordagem baseada na utilização da waveform do som e redes neuronais, excluindo a convencional fase de extração de características habitualmente utilizada em aprendizagem máquina. Esta metodologia permite ultrapassar as limitações ao nível da ineicência temporal de abordagens típicamente utilizadas. Sendo o áudio um componente de relevo no vídeo, torna-se assim possível detectar e distinguir elementos de destaque, como por exemplo as partes mais cómicas, faladas ou musicais. Elaborou-se também um conjunto de dados de sons exclusivamente para o projecto, tendo em vista colmatar a utilização de dados de ‘laboratório’, isto é, obtidos em ambientes controlados, que induzem a falsos positivos e não representam a estocacidade do som no ‘mundo real’. Os resultados obtidos foram bastante satisfatórios, tanto pela rapidez do processo como pela sua precisão, que atingiu taxas de reconhecimento dos sons na ordem dos 90%; O vídeo é atualmente um dos recursos mais utilizados e em constante expansão no mundo digital, sendo que em 2019 será responsável por 80% do tráfego mundial de Internet. Neste panorama, surgiu a problemática da incapacidade humana e (até agora) tecnológica para descrever, interpretar e interagir com este elevado volume de dados multimédia. Assim, têm sido desenvolvidos esforços para encontrar formas de automatizar e melhorar o processo de análise de conteúdo de vídeo e consequentemente melhorar a eiciência, usabilidade e acessibilidade dos vídeos armazenados por milhões de pessoas em todo o mundo. Este processo pode focar-se na análise do som e imagem em simultâneo ou independentemente. Esta dissertação descreve a concretização de um projecto de análise de som, que consistiu no desenvolvimento e implementação de um sistema de classiicação de áudio utilizando uma abordagem baseada na utilização da waveform do som e redes neuronais, excluindo a convencional fase de extração de características habitualmente utilizada em aprendizagem máquina. Esta metodologia permite ultrapassar as limitações ao nível da ineicência temporal de abordagens típicamente utilizadas. Sendo o áudio um componente de relevo no vídeo, torna-se assim possível detectar e distinguir elementos de destaque, como por exemplo as partes mais cómicas, faladas ou musicais. Elaborou-se também um conjunto de dados de sons exclusivamente para o projecto, tendo em vista colmatar a utilização de dados de ‘laboratório’, isto é, obtidos em ambientes controlados, que induzem a falsos positivos e não representam a estocacidade do som no ‘mundo real’. Os resultados obtidos foram bastante satisfatórios, tanto pela rapidez do processo como pela sua precisão, que atingiu taxas de reconhecimento dos sons na ordem dos 90%; Abstract Deep Learning for Sound Event Detection Training acoustic models on waveforms Video is currently one of the most used media resources, it’s use is expanding worldwide and predictions point that by 2019 video will be responsible for 80% of the world’s internet traic. With this in mind the problem of the impossibility for humans and technology (so far) to describe, interpret and interact with this amount of multimedia data rouse. Thus eforts have been made to ind ways to automate and improve the video content analysis process and consequently better the eiciency, usability and accessibility of video stored by millions of people arround the world. This process can focus on the simultaneous analysis of image and sound or independently. This dissertation describes a project that consisted in the development and implementation of an audio classiication system using an emerging approach based on the use of the sound waveform and neural networks, excluding the convetional feature extraction phase normally used in machine learning. As the audio is an important component of video, this system allows detection of important elements like the funnyest parts, where is speech and where is music. The results were very satisfactory, both in terms of processing speed and precision, that reached classiication scores arround 90%.Universidade de Évora2018-02-15T13:14:29Z2018-02-152018-01-15T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10174/22275http://hdl.handle.net/10174/22275TID:201837161porDepartamento de Informáticasara_rijo@hotmail.com498Rijo, Sara Marina Albinoinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-01-03T19:13:36Zoai:dspace.uevora.pt:10174/22275Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T01:13:25.747483Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Técnicas de deep learning para detecção de eventos em áudio: treino de modelos acústicos a partir de sinais puros
title Técnicas de deep learning para detecção de eventos em áudio: treino de modelos acústicos a partir de sinais puros
spellingShingle Técnicas de deep learning para detecção de eventos em áudio: treino de modelos acústicos a partir de sinais puros
Rijo, Sara Marina Albino
Redes neuronais profundas
Classificação de som
Aprendizagem máquina
Dados reais
Alta dimensionalidade
Deep neural networks
Sound classification
Machine learning
Real data
High dimensionality
title_short Técnicas de deep learning para detecção de eventos em áudio: treino de modelos acústicos a partir de sinais puros
title_full Técnicas de deep learning para detecção de eventos em áudio: treino de modelos acústicos a partir de sinais puros
title_fullStr Técnicas de deep learning para detecção de eventos em áudio: treino de modelos acústicos a partir de sinais puros
title_full_unstemmed Técnicas de deep learning para detecção de eventos em áudio: treino de modelos acústicos a partir de sinais puros
title_sort Técnicas de deep learning para detecção de eventos em áudio: treino de modelos acústicos a partir de sinais puros
author Rijo, Sara Marina Albino
author_facet Rijo, Sara Marina Albino
author_role author
dc.contributor.author.fl_str_mv Rijo, Sara Marina Albino
dc.subject.por.fl_str_mv Redes neuronais profundas
Classificação de som
Aprendizagem máquina
Dados reais
Alta dimensionalidade
Deep neural networks
Sound classification
Machine learning
Real data
High dimensionality
topic Redes neuronais profundas
Classificação de som
Aprendizagem máquina
Dados reais
Alta dimensionalidade
Deep neural networks
Sound classification
Machine learning
Real data
High dimensionality
description O vídeo é atualmente um dos recursos mais utilizados e em constante expansão no mundo digital, sendo que em 2019 será responsável por 80% do tráfego mundial de Internet. Neste panorama, surgiu a problemática da incapacidade humana e (até agora) tecnológica para descrever, interpretar e interagir com este elevado volume de dados multimédia. Assim, têm sido desenvolvidos esforços para encontrar formas de automatizar e melhorar o processo de análise de conteúdo de vídeo e consequentemente melhorar a eiciência, usabilidade e acessibilidade dos vídeos armazenados por milhões de pessoas em todo o mundo. Este processo pode focar-se na análise do som e imagem em simultâneo ou independentemente. Esta dissertação descreve a concretização de um projecto de análise de som, que consistiu no desenvolvimento e implementação de um sistema de classiicação de áudio utilizando uma abordagem baseada na utilização da waveform do som e redes neuronais, excluindo a convencional fase de extração de características habitualmente utilizada em aprendizagem máquina. Esta metodologia permite ultrapassar as limitações ao nível da ineicência temporal de abordagens típicamente utilizadas. Sendo o áudio um componente de relevo no vídeo, torna-se assim possível detectar e distinguir elementos de destaque, como por exemplo as partes mais cómicas, faladas ou musicais. Elaborou-se também um conjunto de dados de sons exclusivamente para o projecto, tendo em vista colmatar a utilização de dados de ‘laboratório’, isto é, obtidos em ambientes controlados, que induzem a falsos positivos e não representam a estocacidade do som no ‘mundo real’. Os resultados obtidos foram bastante satisfatórios, tanto pela rapidez do processo como pela sua precisão, que atingiu taxas de reconhecimento dos sons na ordem dos 90%; O vídeo é atualmente um dos recursos mais utilizados e em constante expansão no mundo digital, sendo que em 2019 será responsável por 80% do tráfego mundial de Internet. Neste panorama, surgiu a problemática da incapacidade humana e (até agora) tecnológica para descrever, interpretar e interagir com este elevado volume de dados multimédia. Assim, têm sido desenvolvidos esforços para encontrar formas de automatizar e melhorar o processo de análise de conteúdo de vídeo e consequentemente melhorar a eiciência, usabilidade e acessibilidade dos vídeos armazenados por milhões de pessoas em todo o mundo. Este processo pode focar-se na análise do som e imagem em simultâneo ou independentemente. Esta dissertação descreve a concretização de um projecto de análise de som, que consistiu no desenvolvimento e implementação de um sistema de classiicação de áudio utilizando uma abordagem baseada na utilização da waveform do som e redes neuronais, excluindo a convencional fase de extração de características habitualmente utilizada em aprendizagem máquina. Esta metodologia permite ultrapassar as limitações ao nível da ineicência temporal de abordagens típicamente utilizadas. Sendo o áudio um componente de relevo no vídeo, torna-se assim possível detectar e distinguir elementos de destaque, como por exemplo as partes mais cómicas, faladas ou musicais. Elaborou-se também um conjunto de dados de sons exclusivamente para o projecto, tendo em vista colmatar a utilização de dados de ‘laboratório’, isto é, obtidos em ambientes controlados, que induzem a falsos positivos e não representam a estocacidade do som no ‘mundo real’. Os resultados obtidos foram bastante satisfatórios, tanto pela rapidez do processo como pela sua precisão, que atingiu taxas de reconhecimento dos sons na ordem dos 90%; Abstract Deep Learning for Sound Event Detection Training acoustic models on waveforms Video is currently one of the most used media resources, it’s use is expanding worldwide and predictions point that by 2019 video will be responsible for 80% of the world’s internet traic. With this in mind the problem of the impossibility for humans and technology (so far) to describe, interpret and interact with this amount of multimedia data rouse. Thus eforts have been made to ind ways to automate and improve the video content analysis process and consequently better the eiciency, usability and accessibility of video stored by millions of people arround the world. This process can focus on the simultaneous analysis of image and sound or independently. This dissertation describes a project that consisted in the development and implementation of an audio classiication system using an emerging approach based on the use of the sound waveform and neural networks, excluding the convetional feature extraction phase normally used in machine learning. As the audio is an important component of video, this system allows detection of important elements like the funnyest parts, where is speech and where is music. The results were very satisfactory, both in terms of processing speed and precision, that reached classiication scores arround 90%.
publishDate 2018
dc.date.none.fl_str_mv 2018-02-15T13:14:29Z
2018-02-15
2018-01-15T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10174/22275
http://hdl.handle.net/10174/22275
TID:201837161
url http://hdl.handle.net/10174/22275
identifier_str_mv TID:201837161
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv Departamento de Informática
sara_rijo@hotmail.com
498
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade de Évora
publisher.none.fl_str_mv Universidade de Évora
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799136615830913024