Treino Semiautomático de Sistema de Reconhecimento de Fonemas baseado em Redes Neuronais
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10316/86515 |
Resumo: | Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia |
id |
RCAP_5096d2f56e037feace981ebeadb5e72a |
---|---|
oai_identifier_str |
oai:estudogeral.uc.pt:10316/86515 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Treino Semiautomático de Sistema de Reconhecimento de Fonemas baseado em Redes NeuronaisSemi-Automatic Enhancement of a Phoneme Recognizer based on Neural NetworksReconhecimento de fonemasDNNRBMCNNMicrosoft Congnitive ToolkitPhoneme recognitionDNNRBMCNNMicrosoft Congnitive ToolkitDissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e TecnologiaEsta dissertação tem como principal objetivo a melhoria de um sistema de reconhecimento automático de fonemas, atualmente em uso no laboratório de processamento de sinal do Instituto de Telecomunicações da Universidade de Coimbra, no âmbito do projeto LetsRead. Este projeto fornece uma base de dados de ficheiros de fala de crianças, obtida através de um processo, em que crianças de várias escolas do país, realizaram a leitura de diversas frases.Esta área de fala de crianças atualmente em estudo, tem como objetivo o cálculo do índice de capacidade de leitura de uma criança através da análise da fala.Começa-se com a implementação de redes neuronais pouco profundas, com apenas uma camada escondida, de forma a testar vários tipos de parâmetros.Posteriormente, são implementadas redes profundas (DNN – Deep Neural Networks) de forma a tentar melhorar o desempenho de todo o sistema. Foi utilizado um modelo de pré-treino através de máquinas restritas de Boltzmann (RBM – Restricted Boltzmann machines), para um treino da rede mais eficiente.Por fim, implementa-se redes convolucionais (CNN – Convolutional Neural Networks) em que as entradas são sonogramas.Todo este projeto foi desenvolvido com o uso da ferramenta Microsoft Congnitive Toolkit, onde é permitido a utilização de GPU para o treino das redes. O Matlab também foi muito utilizado, para confirmar e validar métodos e alguns valores obtidos.Neste trabalho existiram algumas dificuldades como o facto de a base de dados não ser tão extensa como se gostaria e de esta estar desequilibrada a nível de fonemas.Os resultados obtidos não foram superiores aos valores tidos como referência. Conseguiu-se concluir que as redes convolucionais apresentam melhores resultados que as rede profundas.Em todo este processo, houve um envolvimento do “Cuda Research Center” que permitiu o uso de um sistema de GPU para o treino das redes.The main objective of this dissertation is to improve a phoneme recognition system through automatic processes, currently in existence in the signal processing laboratory of the Telecommunication Institute of the University of Coimbra, under the context of the LetsRead project. This project provides a database of children’s speech files, obtained through a process in which children from distinct schools in the country read several sentences.This area of children’s speech currently under study, aims to calculate the index of reading ability of a child through automatic speech analysis.It starts with the implementation of neural networks with only one hidden layer, in order to prune distinct types of parameters.Subsequently, Deep Neural Networks (DNN) are implemented in order to try to improve the performance of the entire system. A pretrained model was used by Boltzmann Restricred Machines (RBM) for a more efficient network training.Finally, convolutional neural networks (CNN) are implemented through images of sonograms, provided to the network in question. This method was applied after the previous method failed to reach the goals.The entire project was developed using the Microsoft Congnitive Toolkit tool, which allows the use of GPUs for network training. Matlab is also widely used in helping to understand and confirm some values obtained.In this work some difficulties emerged, such as the fact that the database is not as extensive as you would like and it is unbalanced at the phoneme level.The results obtained were not higher than the reference values. It was possible to conclude that the convolutional networks present better results than deep neural networks.Throughout this process, there was na involvement of the “Cuda Research Center” that allowed the use of a GPU system for neural network training.2018-09-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/86515http://hdl.handle.net/10316/86515TID:202219313porCosta, David António Oliveirainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2021-06-04T08:45:53Zoai:estudogeral.uc.pt:10316/86515Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:07:38.840797Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Treino Semiautomático de Sistema de Reconhecimento de Fonemas baseado em Redes Neuronais Semi-Automatic Enhancement of a Phoneme Recognizer based on Neural Networks |
title |
Treino Semiautomático de Sistema de Reconhecimento de Fonemas baseado em Redes Neuronais |
spellingShingle |
Treino Semiautomático de Sistema de Reconhecimento de Fonemas baseado em Redes Neuronais Costa, David António Oliveira Reconhecimento de fonemas DNN RBM CNN Microsoft Congnitive Toolkit Phoneme recognition DNN RBM CNN Microsoft Congnitive Toolkit |
title_short |
Treino Semiautomático de Sistema de Reconhecimento de Fonemas baseado em Redes Neuronais |
title_full |
Treino Semiautomático de Sistema de Reconhecimento de Fonemas baseado em Redes Neuronais |
title_fullStr |
Treino Semiautomático de Sistema de Reconhecimento de Fonemas baseado em Redes Neuronais |
title_full_unstemmed |
Treino Semiautomático de Sistema de Reconhecimento de Fonemas baseado em Redes Neuronais |
title_sort |
Treino Semiautomático de Sistema de Reconhecimento de Fonemas baseado em Redes Neuronais |
author |
Costa, David António Oliveira |
author_facet |
Costa, David António Oliveira |
author_role |
author |
dc.contributor.author.fl_str_mv |
Costa, David António Oliveira |
dc.subject.por.fl_str_mv |
Reconhecimento de fonemas DNN RBM CNN Microsoft Congnitive Toolkit Phoneme recognition DNN RBM CNN Microsoft Congnitive Toolkit |
topic |
Reconhecimento de fonemas DNN RBM CNN Microsoft Congnitive Toolkit Phoneme recognition DNN RBM CNN Microsoft Congnitive Toolkit |
description |
Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018-09-19 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10316/86515 http://hdl.handle.net/10316/86515 TID:202219313 |
url |
http://hdl.handle.net/10316/86515 |
identifier_str_mv |
TID:202219313 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133967774908416 |