Automatic Recognition of Baby Cry

Detalhes bibliográficos
Autor(a) principal: Moura, Henrique de Seixas
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/102122
Resumo: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
id RCAP_73bdd51d220cef498486b11bf9581000
oai_identifier_str oai:estudogeral.uc.pt:10316/102122
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Automatic Recognition of Baby CryReconhecimento Automático de Choro de BebéChoro de BebéAprendizagem Computacional TradicionalAnálise AcústicaExtração de FeaturesDesenvolvimento de Aplicações MóveisBaby CryTraditional Machine LearningAcoustic AnalysisFeature ExtractionMobile Application DevelopmentDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaAo longo do tempo, descodificar o choro de bebé tem sido um desafio para os pais e, maisrecentemente, para investigadores da área de reconhecimento de padrões. Esta tese focase em fazer progressos no campo do reconhecimento de padrões, explorando a extraçãode features em amostras de áudio de choro de bebé, juntamente com técnicas de seleçãoe redução de features para avaliar que features são considerados mais úteis dentro deum conjunto, estudando o desempenho de abordagens tradicionais de machine learning etrabalhando na construção de uma base de dados de choro de bebé.Para atingir estes objetivos, foi realizada uma análise inicial para entender o estado daarte das abordagens de aprendizagem computacional utilizadas e o mercado atual de aplicações móveis, assim como estudar os features de áudio que tiveram maior impacto noprocesso de extração de features. Além disso, foi desenvolvida uma aplicação móvel emAndroid chamada "BabyCry", com a intenção de criar uma base de dados de choro debebé de tamanho considerável. A ideia era distribuí-la por pais interessados que a usariampara gravar e anotar o choro dos seus bebés e enviá-lo para uma base de dados na nuvem, chamada Firebase. No entanto, apesar de nossos árduos esforços de recrutamento,obtivemos apenas uma aquisição. Posta esta falta de dados, tivemos que utilizar bases dedados disponíveies publicamente, a base de dados Baby Chillanto, que contém 138 registosde choro de bebé, nas seguintes categorias: fome, dor, surdez e asfixia; das quais foramutilizadas apenas as amostras de fome e dor. Também foi utilizado outra base de dadosdenominada Donate-a-Cry, contendo choros de fome, dor, desconforto, cansaço e eructação, porém os resultados obtidos tiveram baixo impacto devido ao visível desequilíbriode classes. Das amostras dessas bases de dados, foram extraídas features de frequência,timbre e intensidade, que, após a aplicação de análise estatística, resultaram num totalde 882 features. Quanto à recolha de dados, o processo de distribuição não correu comoplaneado, devido à baixa adesão ao envio de amostras de áudio, o que levou a uma ligeiramudança de planos para este trabalho.Posteriormente, foram implementados vários classificadores, nomeadamente Support Vector Machines, K-Nearest Neighbours, Random Forest e Minimum Distance Classifier, eo seu desempenho foi comparado num conjunto de experiências, com o objectivo de inferir o classificador que poderia produzir os melhores resultados mais rapidamente. Nestetrabalho experimental foram aplicadas algumas técnicas de seleção de features, nomeadamente a remoção de features de baixa variância, a correlação de Pearson e o algoritmoMinimum Redundancy Maximum Relevance, assim como a técnica de redução de featuresdenominada Principal Component Analysis, com o objectivo de estudar seu impacto. Dasexperiências realizadas, o melhor resultado foi obtido pelo classificador SVM com um kernel RBF, alcançando uma exatidão de 78,08%±8,81% quando lhe foi fornecido 50 featuresextraídas e selecionadas da base de dados Baby Chillanto sem recorrer à PCA. Tambémse obtiveram bons resultados quando se usou o classificador K-NN quando lhe fornecido21 features extraídas, selecionadas e reduzidas pelo uso de PCA das amostras da base dedados Baby Chillanto, alcançando uma exatidão de 78,03%±11,03 % e o melhor f1-scorede choro de dor de 73,34%±14,41%.Estudos anteriores obtiveram melhores resultados em termos de exatidão usando estesclassificadores. Isso pode ser justificado pelo fato de os referidos estudos possuírem umabase de dados privada maior, uma vez que a maioria coletou as próprias amostras. Aoutilizar a base de dados Donate-a-Cry, também foi demonstrado que os estudos tambémpodem inadvertidamente induzir em erro ao mostrar apenas os resultados de exatidão, umavez que bases de dados desequilibradas, como foi o caso, tendem a fornecer bons resultados de exatidão, mas se se usarem outras métricas, como o f1-score, pode-se observar que ummodelo pode ser treinado para apenas prever corretamente a classe em maioria.Throughout time, decoding baby cry has been a challenge for parents and, more recently,for researchers in the field of pattern recognition. This thesis focuses on making progresson the field of pattern recognition, by exploring feature extraction from audio samples ofbaby cry, along with feature selection and reduction techniques to assess which featuresare deemed most valuable to have in a feature set, studying the performance of traditionalmachine learning approaches and building a database of baby cry.To achieve these goals, an initial analysis was conducted to understand the state of theart regarding the machine learning approaches used and the current mobile applicationmarket, as well as studying the audio features that had a major impact in the featureextraction process. In addition, an Android mobile application named "BabyCry" wasdeveloped with the intent to create a sizeable annotated baby cry database. The idea wasto distribute it to interested parents who would use it to record and annotate the cry oftheir babies and send it to a cloud database, namely Firebase. However, despite our hardrecruitment efforts, we obtained only one acquisition. As such, we had to employ a publiclyavailable dataset, the Baby Chillanto database, which contains 138 recordings of baby cry,on the following categories: hunger, pain, deafness and asphyxia; from which only thesamples of hunger and pain were used. Another database named Donate-a-Cry was alsoused, containing cries of hunger, pain, discomfort, tiredness and eructation, however theresults obtained had a low impact due to the evident class imbalance. From the samplesof these databases, frequency, timbre and intensity features were extracted, which, afterapplying statistical analysis, resulted in a total of 882 features. As for the data collection,the distribution process did not go as planned due to a low adherence to the submissionof audio samples, which resorted in a slight shift in plans for this work.Afterwards, several classifiers were implemented, namely Support Vector Machines, KNearest Neighbours, Random Forest and Minimum Distance Classifier, and their performance was compared in a set of experiments, with the purpose of inferring the classifierthat could deliver the best results more swiftly. In this experimental work, some feature selection techniques were applied, namely the removal of low variance features, thePearson correlation and Minimum Redundancy Maximum Relevance algorithm, as well asthe feature reduction technique called Principal Component Analysis, with the purpose ofstudying their impact. From the experiments performed, the best result was obtained bythe SVM classifier with an RBF kernel, achieving a 78.08%±8.81% classification accuracywhen fed 50 features extracted and selected from the Baby Chillanto database withoutthe use of PCA. Similar good results were also obtained by the K-NN classifier when fed21 features extracted, selected and reduced by the use of PCA from the Baby Chillantodatabase, achieving a classification accuracy of 78.03%±11.03% and the highest f1-scoreof pain cry of 73.34%±14.41%.Previous studies have achieved better results in terms of accuracy using these classifiers.This can be justified by the fact that said studies had a larger private database, since theymostly conduct their own sample collection. When using the Donate-a-Cry database, iswas also shown that studies may also unknowingly mislead by only showing the accuracyresults, given that imbalanced datasets, as it was the case, tend to provide good accuracyresults, yet if other metrics, such as the f1-score, are used, it can be seen that a modelmight be trained to only predict the majority class correctly.2022-02-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/102122http://hdl.handle.net/10316/102122TID:203062248engMoura, Henrique de Seixasinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-09-27T20:40:50Zoai:estudogeral.uc.pt:10316/102122Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:19:11.026880Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Automatic Recognition of Baby Cry
Reconhecimento Automático de Choro de Bebé
title Automatic Recognition of Baby Cry
spellingShingle Automatic Recognition of Baby Cry
Moura, Henrique de Seixas
Choro de Bebé
Aprendizagem Computacional Tradicional
Análise Acústica
Extração de Features
Desenvolvimento de Aplicações Móveis
Baby Cry
Traditional Machine Learning
Acoustic Analysis
Feature Extraction
Mobile Application Development
title_short Automatic Recognition of Baby Cry
title_full Automatic Recognition of Baby Cry
title_fullStr Automatic Recognition of Baby Cry
title_full_unstemmed Automatic Recognition of Baby Cry
title_sort Automatic Recognition of Baby Cry
author Moura, Henrique de Seixas
author_facet Moura, Henrique de Seixas
author_role author
dc.contributor.author.fl_str_mv Moura, Henrique de Seixas
dc.subject.por.fl_str_mv Choro de Bebé
Aprendizagem Computacional Tradicional
Análise Acústica
Extração de Features
Desenvolvimento de Aplicações Móveis
Baby Cry
Traditional Machine Learning
Acoustic Analysis
Feature Extraction
Mobile Application Development
topic Choro de Bebé
Aprendizagem Computacional Tradicional
Análise Acústica
Extração de Features
Desenvolvimento de Aplicações Móveis
Baby Cry
Traditional Machine Learning
Acoustic Analysis
Feature Extraction
Mobile Application Development
description Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate 2022
dc.date.none.fl_str_mv 2022-02-11
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/102122
http://hdl.handle.net/10316/102122
TID:203062248
url http://hdl.handle.net/10316/102122
identifier_str_mv TID:203062248
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134086247219200