Automatic identification of bat species using supervised learning

Detalhes bibliográficos
Autor(a) principal: Cláudio, Nuno Filipe Ladeira Costa
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/33874
Resumo: Tese de mestrado, Bioestatística, Universidade de Lisboa, Faculdade de Ciências, 2017
id RCAP_7fe205a15742396f9f714061d13638a1
oai_identifier_str oai:repositorio.ul.pt:10451/33874
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Automatic identification of bat species using supervised learningMorcegosAcústica passivaMachine learningAprendizagem supervisionadaClassificação automáticaTeses de mestrado - 2017Departamento de Estatística e Investigação OperacionalTese de mestrado, Bioestatística, Universidade de Lisboa, Faculdade de Ciências, 2017Recentemente, face à necessidade de encontrar alternativas aos combustíveis fósseis, assistiu-se a um aumento do investimento em energias renováveis, com destaque para a eólica. Contudo, a instalação de parques eólicos não está livre de impactos ambientais negativos, como a mortalidade direta de aves e quirópteros (i.e. morcegos). Os quirópteros desempenham um papel ecológico fundamental, sendo importantes polinizadores e dispersores de sementes de várias espécies vegetais de elevado valor ecológico e económico. Estes mamíferos têm igualmente um papel essencial no controlo de pragas, uma vez que se alimentam essencialmente de insetos (Basil, Vanitharani, & K, 2014; Jones, Jacobs, Kunz, Willig, & Racey, 2009). Dada a sua relevância ecológica, e por ocuparem uma ampla variedade de nichos ecológicos, os morcegos podem ser usados como bioindicadores (Jones et al., 2009). Por conseguinte, a sua conservação é da maior importância, pelo que urge avaliar a sua presença e distribuição. No entanto, estes estudos podem ser de difícil execução devido à pequena dimensão dos indivíduos, ao seu voo rápido e hábitos noturnos, e ainda, à existência de um elevado número de espécies, a maioria com elevadas semelhanças fisionómicas. Consequentemente, os programas de monitorização dependem muito da observação ou captura de indivíduos, sendo muitas vezes de difícil aplicação (Ochoa, O’Farrell, & Miller, 2000). Os quirópteros dependem da ecolocalização para se orientar no espaço, nomeadamente na procura de alimento, emitindo continuamente vocalizações e interpretando os ecos (Schnitzler, Moss, & Denzinger, 2003). As vocalizações de ecolocalização podem ser usadas para efetuar a identificação de espécies, estratégia que, para além de ajudar a monitorar e avaliar o estado de conservação de uma população, está também em conformidade com as regulamentações ambientais (Ahlen & Baagøe, 1999). A identificação acústica assume-se, assim, como fundamental para avaliar o impacto dos parques eólicos nas populações de morcegos. A execução de trabalhos de monotorização em parques eólicos é crucial mas onerosa pois engloba grandes áreas, podendo tornar-se muito exigente em termos de força de trabalho e custos associados. Contudo, esta tarefa pode ser alivada através da utilização de detetores automáticos de ultrassons. Atualmente, estes aparelhos permitem o armazenamento de grandes quantidades de dados relativos à atividade dos morcegos (Jennings, Parsons, & Pocock, 2008). Como resultado, temos acesso a uma grande quantidade de informação que, no entanto, pode ser extremamente difícil para um (ser) humano interpretar e dar sentido. A necessidade de agilizar o processo de identificação de espécies de morcegos levou-nos a desenvolver uma metodologia de identificação de espécies de morcegos da África do Sul, com recurso a metodologias de machine learning. A etapa seguinte passa, assim, por analisar os dados recolhidos e identificar as espécies presentes nas gravações. Para tal, é necessário introduzir métodos automáticos que permitam encontrar padrões nos dados, interpretá-los e tirar conclusões. Algoritmos de machine learning podem ser usados para executar esse tipo de análise. O machine learning é uma área que, lato sensu, cruza a programação computacional com a estatística e cujo objetivo é elaborar sistemas de aprendizagem automática. Actualmente, o machine learning está em toda a parte e começa a ser um ponto central das nossas vidas (Domingos, 2015). De facto, permite-nos trabalhar problemas complexos de predição, como reconhecimento de voz, imagem, predição de séries temporais não-lineares e previsão em mercados financeiros, entre outros (Domingos, 2015). Os algoritmos de machine learning são treinados através de um processo iterativo de feeback positivo e negativo. Em oposição à modelação estatística tradicional, o machine learning não efetua suposições sobre a distribuição subjacente dos dados, que é tratada como desconhecida (Breiman, 2001). Os métodos de machine learning dividem-se em duas categorias principais, aprendizagem supervisionada e não supervisionada. Na aprendizagem supervisionada, a variável dependente está associada a vetores de características que a descrevem. Os algoritmos de aprendizagem supervisionada “aprendem” as características da variável dependente num processo denominado treino. Um algoritmo de aprendizagem supervisionada tenta otimizar uma função (o modelo) para encontrar a combinação de características que ajudam a definir o valor da variável dependente. Os modelos resultantes poderão ser usados para prever novas observações. O tipo de predição feita varia de acordo com a natureza da variável dependente, a designar por y. Se y for uma variável categórica temos um problema de classificação, o qual implica identificar o grupo/classe a que pertence uma determinada observação. Caso y seja contínua, estamos perante um modelo de regressão que envolve estimar ou prever uma resposta. Por sua vez, na aprendizagem não supervisionada, a classe de cada observação é desconhecida e os algoritmos precisam de reconhecer padrões e encontrar grupos com características comuns. Estes métodos tendem, tipicamente, a ser utilizados numa abordagem mais exploratória. A identificação acústica automática tem sido usada na identificação de uma ampla gama de espécies animais, por exemplo, aves (Peake & McGregor, 2001), mamíferos marinhos (Mellinger & Clark, 2000; Yack, Barlow, Rankin, & Gillespie, 2009) e insetos (Mankin, 2011). A identificação de espécies de morcegos a partir das vocalizações de ecolocalização tem sido feita através de diferentes abordagens, incluindo análise estatística multivariada (Vaughan, Jones, & Harris, 1997; Papadatou, Butlin, & Altringham, 2008), modelos de Markov (Skowronski & Harris, 2006), redes neurais (Parsons, Boonman, & Obrist, 2000), support vector machine (Redgwell, Szewczak, Jones, & Parsons, 2009) e random forests (Armitage & Ober, 2010a). A Bioinsight, uma empresa de consultadoria ambiental, lançou o desafio de desenvolver um procedimento expedito de identificação de morcegos da África do Sul, no contexto dos parques eólicos. Neste trabalho, começámos por organizar uma base de dados de pulsos de ecolocalização dividida em conjunto de treino e de teste. O conjunto de treino foi utilizado para treinar modelos classificatórios, individuais para as espécies: Chaerephon pumilus, Eptesicus hottentotus, Miniopterus natalensis, Neoromicia capensis, Sauromys petrophilus e Tadarida aegyptiaca. Os modelos foram treinados com recurso a algoritmos de machine learning, nomeadamente, random forest, support vector machine, eXtreme Gradient Boosting e análise discriminante, com recurso a validação cruzada de modo a otimizar os parâmetros dos modelos. Seguidamente, foi feita a avaliação do poder preditivo dos modelos com recurso ao conjunto de teste e escolhidos os melhores modelos para cada espécie, tendo como base o poder preditivo, o equilibrio entre sensibilidade e especificidade, assim como a origem dos falsos positivos. O objetivo deste trabalho consistiu em estabelecer uma sequência de modelos para identificar cada uma das espécies de interesse, com base nos resultados obtidos no conjunto de teste. A sequência determinada para a aplicação dos modelos estabelecida foi a seguinte: 1. Mnat RF 2. Ehot FDA 3. Ncap FDA 4. Cpum FDA 5. Taeg RF 6. Spet FDA Esta sequência permitiu obter bons resultados no conjunto de teste, classificando correctamente as espécies em 95% das gravações. Foi igualmente elaborado um script em R que aplica os diversos modelos e fornece ao utilizador as espécies presentes em cada uma das gravações analisadas, gerando um output simples e informativo que pode ser editado pelo utilizador. Este sistema foi aplicado a um conjunto de 216 gravações proveniente de um projeto ativo da Bioinsight, tendo identificado corretamente 92% das gravações e indicando ser capaz de generalizar com sucesso para novos dados. O trabalho aqui apresentado é, no nosso melhor conhecimento, o primeiro estudo que utiliza apredizagem supervisionada para identificar espécies de morcegos da África do Sul a partir de pulsos de ecolocalização, permitindo não só identificar espécies de interesse no contexto da monotorização de parques eólicos na África do Sul, mas fazê-lo de forma rápida e sistemática, em comparação com a identificação manual. Com recurso ao script elaborado é possível processar ˜35 000 gravações em apenas 5 minutos. Num futuro próximo, este trabalho permitirá acelerar a identificação de espécies de morcegos da África do Sul e reduzir os custos associados, pois haverá menor necessidade de recorrer a especialistas externos para realizar identificação de gravações. Os próximos passos deste trabalho devem focar-se em enriquecer a base de dados, nomeadamente as espécies menos representadas, como Chaerephon pumilus, Sauromys petrophilus, Myotis tricolor eNeoromicia nanus, Miniopterus fraterculus e Taphozous mauritanus. Em teoria, o melhoramento dabase de dados permitirá que as predições se tornem mais precisas.As limitações atuais de nossa abordagem incluem a propagação de erros uma vez que, se uma espécie é classificada incorretamente, não será possível reverter o erro porque os modelos são aplicados sequencialmente. Existe também incerteza sobre como se comportarão os modelos quando confrontados com espécies que não estão ainda presentes na base de dados e para as quais nenhum modelo foi treinado.In recent years, given the need to find alternatives to fossil fuels, there has been an increase in the focus on renewable energies, especially wind power. However, the installation of wind farms is not free of negative environmental impacts, such as direct mortality of bats and birds. Bats are unique animals that play an important ecological role and their conservation is of the utmost importance. Acoustic identification is fundamental to assess the impact of wind farms on bat communities. The need to speed up the identification process of bat species led us to develop a methodology to identify species of bats from South Africa using machine learning methodologies. The Analook software was used to extract variables related to the frequency, slope, and duration of echolocation pulses from specialist-identified recordings. With this information a database was compiled and divided into training and test sets. The training set was used to train models to identify individual bat species, using an array of algorithms that included random forests, support vector machine, extreme gradient boosting and flexible discriminant analysis. The predictive power of the models was evaluated using the test set. In this work it was possible to obtain high identification accuracy rates for a set of species considered of greater interest in the context of impact studies in wind farms. In the near future, the methodology developed in this work will enhance the process of recording identification and reduce the associated costs. Moreover, gathering new records will improve the database, and allow for more precise predictions on the identification of bat species.Marques, Tiago AndréNunes, Maria Helena Mouriño Silva, 1969-Repositório da Universidade de LisboaCláudio, Nuno Filipe Ladeira Costa2018-06-11T14:37:17Z201720172017-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/33874TID:202012166enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:28:49Zoai:repositorio.ul.pt:10451/33874Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:48:42.865891Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Automatic identification of bat species using supervised learning
title Automatic identification of bat species using supervised learning
spellingShingle Automatic identification of bat species using supervised learning
Cláudio, Nuno Filipe Ladeira Costa
Morcegos
Acústica passiva
Machine learning
Aprendizagem supervisionada
Classificação automática
Teses de mestrado - 2017
Departamento de Estatística e Investigação Operacional
title_short Automatic identification of bat species using supervised learning
title_full Automatic identification of bat species using supervised learning
title_fullStr Automatic identification of bat species using supervised learning
title_full_unstemmed Automatic identification of bat species using supervised learning
title_sort Automatic identification of bat species using supervised learning
author Cláudio, Nuno Filipe Ladeira Costa
author_facet Cláudio, Nuno Filipe Ladeira Costa
author_role author
dc.contributor.none.fl_str_mv Marques, Tiago André
Nunes, Maria Helena Mouriño Silva, 1969-
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Cláudio, Nuno Filipe Ladeira Costa
dc.subject.por.fl_str_mv Morcegos
Acústica passiva
Machine learning
Aprendizagem supervisionada
Classificação automática
Teses de mestrado - 2017
Departamento de Estatística e Investigação Operacional
topic Morcegos
Acústica passiva
Machine learning
Aprendizagem supervisionada
Classificação automática
Teses de mestrado - 2017
Departamento de Estatística e Investigação Operacional
description Tese de mestrado, Bioestatística, Universidade de Lisboa, Faculdade de Ciências, 2017
publishDate 2017
dc.date.none.fl_str_mv 2017
2017
2017-01-01T00:00:00Z
2018-06-11T14:37:17Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/33874
TID:202012166
url http://hdl.handle.net/10451/33874
identifier_str_mv TID:202012166
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134416916709376