Contribuições ao reconhecimento automático de fala robusto

Detalhes bibliográficos
Autor(a) principal: Silva, David Daniel e
Data de Publicação: 2012
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFSC
Texto Completo: http://repositorio.ufsc.br/xmlui/handle/123456789/93624
Resumo: Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2010
id UFSC_51d06a56409a327ab7fbc2f92b5fee75
oai_identifier_str oai:repositorio.ufsc.br:123456789/93624
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Universidade Federal de Santa CatarinaSilva, David Daniel eStemmer, Marcelo Ricardo2012-10-25T00:59:03Z2012-10-25T00:59:03Z2012-10-25T00:59:03Z282663http://repositorio.ufsc.br/xmlui/handle/123456789/93624Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2010Reconhecimento Automático de Fala (RAF) é uma área fascinante e complexa. Durante décadas a demanda de pesquisas baseava-se em RAF para vocabulário não muito extenso, com técnicas que precisavam de alto desempenho computacional para processar dados produzidos em ambientes silenciosos de laboratórios. Dos meados da década de 80 para a frente, a tecnologia de processamento de voz avançou, com a utilização dos modelos ocultos de Markov (HMMs) e com o alto avanço de técnicas de programação e de processamento computacionais, conseguindo taxas de acerto, em ambientes silenciosos, próximas de 100%. Com a finalidade de colocar sistemas de RAF para funcionar na vida real, há alguns anos pesquisas intensas foram e continuam sendo feitas sobre reconhecimento de fala robusto. Por isso, aplicações como DSR (Distributed Speech Recognition), entre outras, surgiram no mercado. Para obter uma performance similar ao do ouvido humano em ambientes ruidosos, no entanto, sistemas desse tipo ainda são o foco de muitas pesquisas. Assim, este trabalho faz um estudo sobre sistemas de reconhecimento automático de fala robusto, objetivando a análise e comportamento de quatro tipos de ruídos (corte de metal, automóveis em frente a um túnel, automóveis dentro do túnel e multidão de crianças), gravados em ambientes diferentes, para a avaliação e construção de bases de dados ruidosas. Desta forma, são desenvolvidas duas bases de dados, deixando como contribuição principal a metodologia para sua construção e o processo de análise e avaliação dos dados envolvidos na sua construção. Além disso, é apresentado um desenvolvimento matemático de um algoritmo que é a solução numérica para uma função logística de três parâmetros de difícil solução, empregada para modelar o comportamento dos sistemas WI007 e WI008 usados aqui. Um método de ajuste inicial logístico (Mail) das curvas Pesq vs. TA para a avaliação do comportamento do sistema de RAF adotado, também é uma das contribuições deste trabalho. Como um dos resultados da aplicação da metodologia proposta, obteve-se uma melhora significativa na taxa de acerto do WI007 para o ruído corte de metal que, em média, foi igual a 3,69%.Automatic Speech Recognition (ASR) is a fascinating and complex area. For decades the demand for research was based at ASR for not very extensive vocabulary, using techniques that need high performance computing to process the data produced in quiet laboratory environments. From the mid-80 forward, the speech processing technology has advanced, with the use of Hidden Markov Models (HMM) and the high advancement of programming techniques and computer processing, achieving recognition rates in quiet environments close to 100%. In order to put ASR systems to work in real life, several years of intensive research have been and are being made on robust speech recognition. Therefore, applications such as DSR (Distributed Speech Recognition), among others, appeared on the market. In order to achieve a performance similar to the human ear in noisy environments, however, such systems are still the focus of much research. This work makes a study on robust automatic speech recognition systems, aiming at the analysis and behavior of four types of noises (metal cutting, cars in front of a tunnel, cars inside the tunnel and a crowd of children), recorded in different environments for the evaluation and construction of noisy databases. Thus, two databases were developed, having as major contributions the methodology for their construction and the process of analysis and evaluation of data involved in its construction. Furthermore, we present a mathematical development of an algorithm which is the numerical solution to a logistic function of three parameters of difficult solution, used to model the behavior of WI007 and WI008 systems employed here. A method for initial logistic adjustment (Mail) for Pesq vs. TA curves to evaluate the behavior of the adopted ASR system is also one of the contributions of this work. As one result of the proposed methodology, we obtained a significant improvement in the recognition rate for WI007 for the metal cutting noise which, on average, was equal to 3.69%.270 p.| il., grafs., tabs.porEngenharia de sistemasAutomaçãoReconhecimento automatico da vozBanco de dadosContribuições ao reconhecimento automático de fala robustoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINAL282663.pdfapplication/pdf3425788https://repositorio.ufsc.br/bitstream/123456789/93624/1/282663.pdf11c0696aaa6269d3305bc94da6724197MD51TEXT282663.pdf.txt282663.pdf.txtExtracted Texttext/plain283963https://repositorio.ufsc.br/bitstream/123456789/93624/2/282663.pdf.txt1a7909d1234f77ae30a08fc49e85b532MD52THUMBNAIL282663.pdf.jpg282663.pdf.jpgGenerated Thumbnailimage/jpeg707https://repositorio.ufsc.br/bitstream/123456789/93624/3/282663.pdf.jpg673eb773a1c9a281ec2c260b6a341261MD53123456789/936242016-03-07 15:58:20.923oai:repositorio.ufsc.br:123456789/93624Repositório de PublicaçõesPUBhttp://150.162.242.35/oai/requestopendoar:23732016-03-07T18:58:20Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.pt_BR.fl_str_mv Contribuições ao reconhecimento automático de fala robusto
title Contribuições ao reconhecimento automático de fala robusto
spellingShingle Contribuições ao reconhecimento automático de fala robusto
Silva, David Daniel e
Engenharia de sistemas
Automação
Reconhecimento automatico da voz
Banco de dados
title_short Contribuições ao reconhecimento automático de fala robusto
title_full Contribuições ao reconhecimento automático de fala robusto
title_fullStr Contribuições ao reconhecimento automático de fala robusto
title_full_unstemmed Contribuições ao reconhecimento automático de fala robusto
title_sort Contribuições ao reconhecimento automático de fala robusto
author Silva, David Daniel e
author_facet Silva, David Daniel e
author_role author
dc.contributor.pt_BR.fl_str_mv Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Silva, David Daniel e
dc.contributor.advisor1.fl_str_mv Stemmer, Marcelo Ricardo
contributor_str_mv Stemmer, Marcelo Ricardo
dc.subject.classification.pt_BR.fl_str_mv Engenharia de sistemas
Automação
Reconhecimento automatico da voz
Banco de dados
topic Engenharia de sistemas
Automação
Reconhecimento automatico da voz
Banco de dados
description Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2010
publishDate 2012
dc.date.accessioned.fl_str_mv 2012-10-25T00:59:03Z
dc.date.available.fl_str_mv 2012-10-25T00:59:03Z
dc.date.issued.fl_str_mv 2012-10-25T00:59:03Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://repositorio.ufsc.br/xmlui/handle/123456789/93624
dc.identifier.other.pt_BR.fl_str_mv 282663
identifier_str_mv 282663
url http://repositorio.ufsc.br/xmlui/handle/123456789/93624
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 270 p.| il., grafs., tabs.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/93624/1/282663.pdf
https://repositorio.ufsc.br/bitstream/123456789/93624/2/282663.pdf.txt
https://repositorio.ufsc.br/bitstream/123456789/93624/3/282663.pdf.jpg
bitstream.checksum.fl_str_mv 11c0696aaa6269d3305bc94da6724197
1a7909d1234f77ae30a08fc49e85b532
673eb773a1c9a281ec2c260b6a341261
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1766805007319957504