Extração de características para segmentação de locutores
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPE |
dARK ID: | ark:/64986/001300000bf80 |
Texto Completo: | https://repositorio.ufpe.br/handle/123456789/35863 |
Resumo: | A transcrição de locutores em conversações determina "quem falou e quando?", identificando o número de locutores presentes e os intervalos onde cada locutor fala. Um sistema de transcrição de locutores implementa quatro etapas fundamentais: Detecção de atividade de voz, extração de características acústicas, segmentação e clusterização dos locutores. A tarefa de segmentação torna-se um grande desafio em conversas de estilo livre, nas quais as transições entre locutores são frequentes e em muitas delas ocorrem a sobreposição da fala de dois ou mais locutores. Nesse cenário, a detecção de transições/mudanças, precisa ser feita utilizando segmentos curtos da fala de dois ou mais locutores, para não incluir duas ou mais mudanças na mesma amostra, e assim evitando perdas durante o processo. O estado da arte i-vector representa as características da fala correspondentes à identidade do locutor, projetada para discriminar pessoas. No entanto, seu desempenho é afetado pelo tamanho da amostra da fala, de tal modo que no cenário de conversações de estilo livre, seu desempenho é comparável com métodos tradicionais de modelagem das características acústicas utilizando misturas gaussianas. Propomos o Mel Cepstral Affinity Features (MCAF) um extrator de características da fala projetado para amostras curtas e próprio para a tarefa de segmentação de locutores. A característica proposta discrimina os diferentes tipos de fala: homogênea (amostra contendo um único locutor), heterogênea (dois locutores presentes sem sobreposição) e a sobreposta (ao menos dois locutores falando simultaneamente). Um método de janelas deslizantes utiliza essa discriminação para detectar as mudanças de locutor. Experimentos utilizando o corpora da AMI mostram que nossa proposta exibe um desempenho na métrica ₁ score 38% superior ao método de segmentação tradicional utilizando as características Mel Frequency Cepstral Coefficients (MFCC) e a distância Generalized Likelihood Ratio (GLR), e 15% superior ao método utilizando i-vector, considerado estado da arte para a tarefa, mas com menor custo computacional. |
id |
UFPE_37f47b7940f13d1f7978ddcd11f29f82 |
---|---|
oai_identifier_str |
oai:repositorio.ufpe.br:123456789/35863 |
network_acronym_str |
UFPE |
network_name_str |
Repositório Institucional da UFPE |
repository_id_str |
2221 |
spelling |
NERI, Leonardo Valerianohttp://lattes.cnpq.br/5889798081215478http://lattes.cnpq.br/3084134533707587http://lattes.cnpq.br/8577312109146354REN, Tsang IngCAVALCANTI, George Darmiton da Cunha2019-12-18T19:33:01Z2019-12-18T19:33:01Z2019-02-21NERI, Leonardo Valeriano. Extração de características para segmentação de locutores. 2019. Tese (Doutorado em Ciência da computação) – Universidade Federal de Pernambuco, Recife, 2019.https://repositorio.ufpe.br/handle/123456789/35863ark:/64986/001300000bf80A transcrição de locutores em conversações determina "quem falou e quando?", identificando o número de locutores presentes e os intervalos onde cada locutor fala. Um sistema de transcrição de locutores implementa quatro etapas fundamentais: Detecção de atividade de voz, extração de características acústicas, segmentação e clusterização dos locutores. A tarefa de segmentação torna-se um grande desafio em conversas de estilo livre, nas quais as transições entre locutores são frequentes e em muitas delas ocorrem a sobreposição da fala de dois ou mais locutores. Nesse cenário, a detecção de transições/mudanças, precisa ser feita utilizando segmentos curtos da fala de dois ou mais locutores, para não incluir duas ou mais mudanças na mesma amostra, e assim evitando perdas durante o processo. O estado da arte i-vector representa as características da fala correspondentes à identidade do locutor, projetada para discriminar pessoas. No entanto, seu desempenho é afetado pelo tamanho da amostra da fala, de tal modo que no cenário de conversações de estilo livre, seu desempenho é comparável com métodos tradicionais de modelagem das características acústicas utilizando misturas gaussianas. Propomos o Mel Cepstral Affinity Features (MCAF) um extrator de características da fala projetado para amostras curtas e próprio para a tarefa de segmentação de locutores. A característica proposta discrimina os diferentes tipos de fala: homogênea (amostra contendo um único locutor), heterogênea (dois locutores presentes sem sobreposição) e a sobreposta (ao menos dois locutores falando simultaneamente). Um método de janelas deslizantes utiliza essa discriminação para detectar as mudanças de locutor. Experimentos utilizando o corpora da AMI mostram que nossa proposta exibe um desempenho na métrica ₁ score 38% superior ao método de segmentação tradicional utilizando as características Mel Frequency Cepstral Coefficients (MFCC) e a distância Generalized Likelihood Ratio (GLR), e 15% superior ao método utilizando i-vector, considerado estado da arte para a tarefa, mas com menor custo computacional.CNPqSpeaker diarization determines "who spoke and when?" in a conversation, detects the number of speakers and the intervals where each speaker is active. A speaker diarization system has at least four fundamental steps: voice activity detection, acoustic feature extraction, speaker segmentation, and speaker clustering. The segmentation step becomes a big challenge in spontaneous conversations scenario, because transitions between speakers occur frequently, andaround the transitions the speech from the speakers overlap. In this scenario, the detection of a speaker change is performed using short segments of speech, in order to avoid to have more than one speaker change per segment, so no change is missed. The state of the art i-vector represents the speech characteristics corresponding to the identity of the speaker, designed to discriminate people. However, its performance is affected by speech sample size, so that in the spontaneous talk scenario, its performance is comparable to traditional acoustic modeling methods using Gaussian mixture models. We propose the use of Mel Cepstral Affinity Features (MCAF), designed for short samples and the task of speaker segmentation. The proposed feature discriminates the different types of speech segments: homogeneous (segment containing a single speaker), heterogeneous (two speakers present without overlap) and overlapped (at least two speakers speaking simultaneously). A two sliding window method uses this discrimination to detect speaker changes. Experiments using the AMI corpora show that our proposed feature exhibits superior performance of ₁ score in 38% to traditional segmentation method using MFCC and GLR distance, and it is 15% superior to the i-vector-based method, which is considered state of the art for the task, but with lower computational cost.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessProcessamento de sinais e reconhecimento de padrõesDiarização de locutoresSegmentação de locutoresSobreposição de falaExtração de características para segmentação de locutoresinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisdoutoradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETEXTTESE Leonardo Valeriano Neri.pdf.txtTESE Leonardo Valeriano Neri.pdf.txtExtracted texttext/plain262687https://repositorio.ufpe.br/bitstream/123456789/35863/4/TESE%20Leonardo%20Valeriano%20Neri.pdf.txtb82e3dbc8c1dd0990e678c76ea1842e2MD54THUMBNAILTESE Leonardo Valeriano Neri.pdf.jpgTESE Leonardo Valeriano Neri.pdf.jpgGenerated Thumbnailimage/jpeg1230https://repositorio.ufpe.br/bitstream/123456789/35863/5/TESE%20Leonardo%20Valeriano%20Neri.pdf.jpgb15c069afe2147c955235d602a118a78MD55ORIGINALTESE Leonardo Valeriano Neri.pdfTESE Leonardo Valeriano Neri.pdfapplication/pdf3227314https://repositorio.ufpe.br/bitstream/123456789/35863/1/TESE%20Leonardo%20Valeriano%20Neri.pdf1c19b4d65a5596479806e01778c860f5MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/35863/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82310https://repositorio.ufpe.br/bitstream/123456789/35863/3/license.txtbd573a5ca8288eb7272482765f819534MD53123456789/358632019-12-19 02:15:47.711oai:repositorio.ufpe.br:123456789/35863TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLCBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91IGFjb3Jkby4KCkEgVUZQRSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBub21lKHMpIGRvKHMpIGF1dG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50byBlbnRyZWd1ZSBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZG8gcHJldmlzdG8gbmEgYWzDrW5lYSBjKS4KRepositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-12-19T05:15:47Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
dc.title.pt_BR.fl_str_mv |
Extração de características para segmentação de locutores |
title |
Extração de características para segmentação de locutores |
spellingShingle |
Extração de características para segmentação de locutores NERI, Leonardo Valeriano Processamento de sinais e reconhecimento de padrões Diarização de locutores Segmentação de locutores Sobreposição de fala |
title_short |
Extração de características para segmentação de locutores |
title_full |
Extração de características para segmentação de locutores |
title_fullStr |
Extração de características para segmentação de locutores |
title_full_unstemmed |
Extração de características para segmentação de locutores |
title_sort |
Extração de características para segmentação de locutores |
author |
NERI, Leonardo Valeriano |
author_facet |
NERI, Leonardo Valeriano |
author_role |
author |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/5889798081215478 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/3084134533707587 |
dc.contributor.advisor-coLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/8577312109146354 |
dc.contributor.author.fl_str_mv |
NERI, Leonardo Valeriano |
dc.contributor.advisor1.fl_str_mv |
REN, Tsang Ing |
dc.contributor.advisor-co1.fl_str_mv |
CAVALCANTI, George Darmiton da Cunha |
contributor_str_mv |
REN, Tsang Ing CAVALCANTI, George Darmiton da Cunha |
dc.subject.por.fl_str_mv |
Processamento de sinais e reconhecimento de padrões Diarização de locutores Segmentação de locutores Sobreposição de fala |
topic |
Processamento de sinais e reconhecimento de padrões Diarização de locutores Segmentação de locutores Sobreposição de fala |
description |
A transcrição de locutores em conversações determina "quem falou e quando?", identificando o número de locutores presentes e os intervalos onde cada locutor fala. Um sistema de transcrição de locutores implementa quatro etapas fundamentais: Detecção de atividade de voz, extração de características acústicas, segmentação e clusterização dos locutores. A tarefa de segmentação torna-se um grande desafio em conversas de estilo livre, nas quais as transições entre locutores são frequentes e em muitas delas ocorrem a sobreposição da fala de dois ou mais locutores. Nesse cenário, a detecção de transições/mudanças, precisa ser feita utilizando segmentos curtos da fala de dois ou mais locutores, para não incluir duas ou mais mudanças na mesma amostra, e assim evitando perdas durante o processo. O estado da arte i-vector representa as características da fala correspondentes à identidade do locutor, projetada para discriminar pessoas. No entanto, seu desempenho é afetado pelo tamanho da amostra da fala, de tal modo que no cenário de conversações de estilo livre, seu desempenho é comparável com métodos tradicionais de modelagem das características acústicas utilizando misturas gaussianas. Propomos o Mel Cepstral Affinity Features (MCAF) um extrator de características da fala projetado para amostras curtas e próprio para a tarefa de segmentação de locutores. A característica proposta discrimina os diferentes tipos de fala: homogênea (amostra contendo um único locutor), heterogênea (dois locutores presentes sem sobreposição) e a sobreposta (ao menos dois locutores falando simultaneamente). Um método de janelas deslizantes utiliza essa discriminação para detectar as mudanças de locutor. Experimentos utilizando o corpora da AMI mostram que nossa proposta exibe um desempenho na métrica ₁ score 38% superior ao método de segmentação tradicional utilizando as características Mel Frequency Cepstral Coefficients (MFCC) e a distância Generalized Likelihood Ratio (GLR), e 15% superior ao método utilizando i-vector, considerado estado da arte para a tarefa, mas com menor custo computacional. |
publishDate |
2019 |
dc.date.accessioned.fl_str_mv |
2019-12-18T19:33:01Z |
dc.date.available.fl_str_mv |
2019-12-18T19:33:01Z |
dc.date.issued.fl_str_mv |
2019-02-21 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
NERI, Leonardo Valeriano. Extração de características para segmentação de locutores. 2019. Tese (Doutorado em Ciência da computação) – Universidade Federal de Pernambuco, Recife, 2019. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufpe.br/handle/123456789/35863 |
dc.identifier.dark.fl_str_mv |
ark:/64986/001300000bf80 |
identifier_str_mv |
NERI, Leonardo Valeriano. Extração de características para segmentação de locutores. 2019. Tese (Doutorado em Ciência da computação) – Universidade Federal de Pernambuco, Recife, 2019. ark:/64986/001300000bf80 |
url |
https://repositorio.ufpe.br/handle/123456789/35863 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.publisher.program.fl_str_mv |
Programa de Pos Graduacao em Ciencia da Computacao |
dc.publisher.initials.fl_str_mv |
UFPE |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
instname_str |
Universidade Federal de Pernambuco (UFPE) |
instacron_str |
UFPE |
institution |
UFPE |
reponame_str |
Repositório Institucional da UFPE |
collection |
Repositório Institucional da UFPE |
bitstream.url.fl_str_mv |
https://repositorio.ufpe.br/bitstream/123456789/35863/4/TESE%20Leonardo%20Valeriano%20Neri.pdf.txt https://repositorio.ufpe.br/bitstream/123456789/35863/5/TESE%20Leonardo%20Valeriano%20Neri.pdf.jpg https://repositorio.ufpe.br/bitstream/123456789/35863/1/TESE%20Leonardo%20Valeriano%20Neri.pdf https://repositorio.ufpe.br/bitstream/123456789/35863/2/license_rdf https://repositorio.ufpe.br/bitstream/123456789/35863/3/license.txt |
bitstream.checksum.fl_str_mv |
b82e3dbc8c1dd0990e678c76ea1842e2 b15c069afe2147c955235d602a118a78 1c19b4d65a5596479806e01778c860f5 e39d27027a6cc9cb039ad269a5db8e34 bd573a5ca8288eb7272482765f819534 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
repository.mail.fl_str_mv |
attena@ufpe.br |
_version_ |
1815172778337239040 |