Contribuições ao reconhecimento automático de fala robusto

Silva, David Daniel e

Contribuições ao reconhecimento automático de fala robusto

Detalhes bibliográficos
Autor(a) principal:	Silva, David Daniel e
Data de Publicação:	2012
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Repositório Institucional da UFSC
Texto Completo:	http://repositorio.ufsc.br/xmlui/handle/123456789/93624
Resumo:	Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2010

Metadados do item

id	UFSC_51d06a56409a327ab7fbc2f92b5fee75
oai_identifier_str	oai:repositorio.ufsc.br:123456789/93624
network_acronym_str	UFSC
network_name_str	Repositório Institucional da UFSC
repository_id_str	2373
spelling	Universidade Federal de Santa CatarinaSilva, David Daniel eStemmer, Marcelo Ricardo2012-10-25T00:59:03Z2012-10-25T00:59:03Z2012-10-25T00:59:03Z282663http://repositorio.ufsc.br/xmlui/handle/123456789/93624Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2010Reconhecimento Automático de Fala (RAF) é uma área fascinante e complexa. Durante décadas a demanda de pesquisas baseava-se em RAF para vocabulário não muito extenso, com técnicas que precisavam de alto desempenho computacional para processar dados produzidos em ambientes silenciosos de laboratórios. Dos meados da década de 80 para a frente, a tecnologia de processamento de voz avançou, com a utilização dos modelos ocultos de Markov (HMMs) e com o alto avanço de técnicas de programação e de processamento computacionais, conseguindo taxas de acerto, em ambientes silenciosos, próximas de 100%. Com a finalidade de colocar sistemas de RAF para funcionar na vida real, há alguns anos pesquisas intensas foram e continuam sendo feitas sobre reconhecimento de fala robusto. Por isso, aplicações como DSR (Distributed Speech Recognition), entre outras, surgiram no mercado. Para obter uma performance similar ao do ouvido humano em ambientes ruidosos, no entanto, sistemas desse tipo ainda são o foco de muitas pesquisas. Assim, este trabalho faz um estudo sobre sistemas de reconhecimento automático de fala robusto, objetivando a análise e comportamento de quatro tipos de ruídos (corte de metal, automóveis em frente a um túnel, automóveis dentro do túnel e multidão de crianças), gravados em ambientes diferentes, para a avaliação e construção de bases de dados ruidosas. Desta forma, são desenvolvidas duas bases de dados, deixando como contribuição principal a metodologia para sua construção e o processo de análise e avaliação dos dados envolvidos na sua construção. Além disso, é apresentado um desenvolvimento matemático de um algoritmo que é a solução numérica para uma função logística de três parâmetros de difícil solução, empregada para modelar o comportamento dos sistemas WI007 e WI008 usados aqui. Um método de ajuste inicial logístico (Mail) das curvas Pesq vs. TA para a avaliação do comportamento do sistema de RAF adotado, também é uma das contribuições deste trabalho. Como um dos resultados da aplicação da metodologia proposta, obteve-se uma melhora significativa na taxa de acerto do WI007 para o ruído corte de metal que, em média, foi igual a 3,69%.Automatic Speech Recognition (ASR) is a fascinating and complex area. For decades the demand for research was based at ASR for not very extensive vocabulary, using techniques that need high performance computing to process the data produced in quiet laboratory environments. From the mid-80 forward, the speech processing technology has advanced, with the use of Hidden Markov Models (HMM) and the high advancement of programming techniques and computer processing, achieving recognition rates in quiet environments close to 100%. In order to put ASR systems to work in real life, several years of intensive research have been and are being made on robust speech recognition. Therefore, applications such as DSR (Distributed Speech Recognition), among others, appeared on the market. In order to achieve a performance similar to the human ear in noisy environments, however, such systems are still the focus of much research. This work makes a study on robust automatic speech recognition systems, aiming at the analysis and behavior of four types of noises (metal cutting, cars in front of a tunnel, cars inside the tunnel and a crowd of children), recorded in different environments for the evaluation and construction of noisy databases. Thus, two databases were developed, having as major contributions the methodology for their construction and the process of analysis and evaluation of data involved in its construction. Furthermore, we present a mathematical development of an algorithm which is the numerical solution to a logistic function of three parameters of difficult solution, used to model the behavior of WI007 and WI008 systems employed here. A method for initial logistic adjustment (Mail) for Pesq vs. TA curves to evaluate the behavior of the adopted ASR system is also one of the contributions of this work. As one result of the proposed methodology, we obtained a significant improvement in the recognition rate for WI007 for the metal cutting noise which, on average, was equal to 3.69%.270 p.\| il., grafs., tabs.porEngenharia de sistemasAutomaçãoReconhecimento automatico da vozBanco de dadosContribuições ao reconhecimento automático de fala robustoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINAL282663.pdfapplication/pdf3425788https://repositorio.ufsc.br/bitstream/123456789/93624/1/282663.pdf11c0696aaa6269d3305bc94da6724197MD51TEXT282663.pdf.txt282663.pdf.txtExtracted Texttext/plain283963https://repositorio.ufsc.br/bitstream/123456789/93624/2/282663.pdf.txt1a7909d1234f77ae30a08fc49e85b532MD52THUMBNAIL282663.pdf.jpg282663.pdf.jpgGenerated Thumbnailimage/jpeg707https://repositorio.ufsc.br/bitstream/123456789/93624/3/282663.pdf.jpg673eb773a1c9a281ec2c260b6a341261MD53123456789/936242016-03-07 15:58:20.923oai:repositorio.ufsc.br:123456789/93624Repositório de PublicaçõesPUBhttp://150.162.242.35/oai/requestopendoar:23732016-03-07T18:58:20Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.pt_BR.fl_str_mv	Contribuições ao reconhecimento automático de fala robusto
title	Contribuições ao reconhecimento automático de fala robusto
spellingShingle	Contribuições ao reconhecimento automático de fala robusto Silva, David Daniel e Engenharia de sistemas Automação Reconhecimento automatico da voz Banco de dados
title_short	Contribuições ao reconhecimento automático de fala robusto
title_full	Contribuições ao reconhecimento automático de fala robusto
title_fullStr	Contribuições ao reconhecimento automático de fala robusto
title_full_unstemmed	Contribuições ao reconhecimento automático de fala robusto
title_sort	Contribuições ao reconhecimento automático de fala robusto
author	Silva, David Daniel e
author_facet	Silva, David Daniel e
author_role	author
dc.contributor.pt_BR.fl_str_mv	Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv	Silva, David Daniel e
dc.contributor.advisor1.fl_str_mv	Stemmer, Marcelo Ricardo
contributor_str_mv	Stemmer, Marcelo Ricardo
dc.subject.classification.pt_BR.fl_str_mv	Engenharia de sistemas Automação Reconhecimento automatico da voz Banco de dados
topic	Engenharia de sistemas Automação Reconhecimento automatico da voz Banco de dados
description	Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2010
publishDate	2012
dc.date.accessioned.fl_str_mv	2012-10-25T00:59:03Z
dc.date.available.fl_str_mv	2012-10-25T00:59:03Z
dc.date.issued.fl_str_mv	2012-10-25T00:59:03Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://repositorio.ufsc.br/xmlui/handle/123456789/93624
dc.identifier.other.pt_BR.fl_str_mv	282663
identifier_str_mv	282663
url	http://repositorio.ufsc.br/xmlui/handle/123456789/93624
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	270 p.\| il., grafs., tabs.
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFSC instname:Universidade Federal de Santa Catarina (UFSC) instacron:UFSC
instname_str	Universidade Federal de Santa Catarina (UFSC)
instacron_str	UFSC
institution	UFSC
reponame_str	Repositório Institucional da UFSC
collection	Repositório Institucional da UFSC
bitstream.url.fl_str_mv	https://repositorio.ufsc.br/bitstream/123456789/93624/1/282663.pdf https://repositorio.ufsc.br/bitstream/123456789/93624/2/282663.pdf.txt https://repositorio.ufsc.br/bitstream/123456789/93624/3/282663.pdf.jpg
bitstream.checksum.fl_str_mv	11c0696aaa6269d3305bc94da6724197 1a7909d1234f77ae30a08fc49e85b532 673eb773a1c9a281ec2c260b6a341261
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_	1766805007319957504

Contribuições ao reconhecimento automático de fala robusto

Registros relacionados