An initialization technique for geometric semantic geneticprogramming based on demes evolution and despeciation : machine learning for rare diseases: a case study

Detalhes bibliográficos
Autor(a) principal: Bakurov, Illya
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10362/34384
Resumo: Dissertation presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced Analytics
id RCAP_f669795bc13337fcda4048e608ad5528
oai_identifier_str oai:run.unl.pt:10362/34384
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling An initialization technique for geometric semantic geneticprogramming based on demes evolution and despeciation : machine learning for rare diseases: a case studyGenetic ProgrammingGeometric Semantic Genetic ProgrammingInitializationProgramação Genética em Geometria SemânticaProgramação GenéticaData MiningAlgoritmos EvolutivosAprendizagem AutomáticaDissertation presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced AnalyticsEvolutionary Algorithms mimic Darwin’s Theory of Evolution for Machine Learning. A set of candidate solutions, called individuals, are let to evolve in iterative manner exposed to adaptation through simulation of natural selection mechanism. Genetic Programming (GP), is a supervised Machine Learning technique for automatic induction of computer programs from a set of training examples. Initializing the population is an important step for GP, and several strategies have been proposed so far. The issue is particularly important for Geometric Semantic Genetic Programming (GSGP), a sub-field of GP, where initialization is known to play a very important role. In this thesis, an initialization technique inspired by the biological phenomenon of demes despeciation is proposed, i.e. the combination of demes from previously distinct species into a new population. In synthesis, the initial population for GP, or its variant GSGP, can be created using individuals from a set of separate sub-populations, or demes, some of which run standard GP and the others GSGP evolutionary algorithm for few generations. GSGP with this novel initialization technique is shown to outperform GSGP using traditional Ramped Half-and-Half (RHH) algorithm on six complex symbolic regression applications. More specifically, on all studied problems, the proposed initialization technique allows to generate solutions with comparable or even better generalization ability, and of significantly smaller size than with RHH algorithm. Additionally, it is shown the practical application of the algorithm to solve a specific problem in context of an institutional collaboration with Casa dos Marcos, currently the first and unique resource center for Rare Diseases in Portugal, along with other (descriptive) techniques.Algoritmos Evolutivos reproduzem os princípios da Teoria de Evolução de Darwin para a Aprendizagem Automática. Um conjunto de soluções candidatas, chamadas indivíduos, são evoluídas de forma iterativa e expostas à adaptação através da simulação do mecanismo de seleção natural. Programação Genética (PG), é uma ramo na Aprendizagem Automática supervisionada para a indução automática de programas computacionais a partir de um conjunto de exemplos de treino. A inicialização da população é um passo importante para PG, e várias estratégias já foram propostas até agora. A questão é particularmente importante para Programação Genética em Geometria Semântica (PGGS), um sub-campo de PG, onde a inicialização é conhecida por desempenhar um papel muito importante. Nesta tese, é propósta uma técnica de inicialização inspirada no fenômeno biológico de despeciação de sub-populações, isto é, a combinação de sub-populações de espécies previamente distintas numa nova população. Em síntese, a população inicial para PG, ou para a sua variante PGGS, pode ser criada através de indivíduos oriundos de um conjunto de subpopulações separadas, algumas das quais são evoluídas por um algoritmo de PG, outras PGGS, durante poucas gerações. PGGS com esta nova técnica de inicialização supera PGGS usando o algoritmo tradicional - Ramped Half-and-Half (RHH) - em seis aplicações complexas de regressão simbólica. Mais especificamente, em todos os problemas estudados, a técnica de inicialização proposta permite obter soluções com capacidade de generalização comparável ou mesmo melhor, e de tamanho significativamente menor do que com o algoritmo RHH. Além disso, é proposta uma aplicação prática do algoritmo desenvolvido, para além de técnias descritivas, para resolver um problema específico no contexto da colaboração institucional com a Casa dos Marcos, atualmente o primeiro e o único centro de recursos para Doenças Raras em território nacional.Vanneschi, LeonardoCastelli, MauroRUNBakurov, Illya2018-04-12T17:04:55Z2018-02-022018-02-02T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10362/34384TID:201897695enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-11T04:18:50Zoai:run.unl.pt:10362/34384Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:30:10.020189Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv An initialization technique for geometric semantic geneticprogramming based on demes evolution and despeciation : machine learning for rare diseases: a case study
title An initialization technique for geometric semantic geneticprogramming based on demes evolution and despeciation : machine learning for rare diseases: a case study
spellingShingle An initialization technique for geometric semantic geneticprogramming based on demes evolution and despeciation : machine learning for rare diseases: a case study
Bakurov, Illya
Genetic Programming
Geometric Semantic Genetic Programming
Initialization
Programação Genética em Geometria Semântica
Programação Genética
Data Mining
Algoritmos Evolutivos
Aprendizagem Automática
title_short An initialization technique for geometric semantic geneticprogramming based on demes evolution and despeciation : machine learning for rare diseases: a case study
title_full An initialization technique for geometric semantic geneticprogramming based on demes evolution and despeciation : machine learning for rare diseases: a case study
title_fullStr An initialization technique for geometric semantic geneticprogramming based on demes evolution and despeciation : machine learning for rare diseases: a case study
title_full_unstemmed An initialization technique for geometric semantic geneticprogramming based on demes evolution and despeciation : machine learning for rare diseases: a case study
title_sort An initialization technique for geometric semantic geneticprogramming based on demes evolution and despeciation : machine learning for rare diseases: a case study
author Bakurov, Illya
author_facet Bakurov, Illya
author_role author
dc.contributor.none.fl_str_mv Vanneschi, Leonardo
Castelli, Mauro
RUN
dc.contributor.author.fl_str_mv Bakurov, Illya
dc.subject.por.fl_str_mv Genetic Programming
Geometric Semantic Genetic Programming
Initialization
Programação Genética em Geometria Semântica
Programação Genética
Data Mining
Algoritmos Evolutivos
Aprendizagem Automática
topic Genetic Programming
Geometric Semantic Genetic Programming
Initialization
Programação Genética em Geometria Semântica
Programação Genética
Data Mining
Algoritmos Evolutivos
Aprendizagem Automática
description Dissertation presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced Analytics
publishDate 2018
dc.date.none.fl_str_mv 2018-04-12T17:04:55Z
2018-02-02
2018-02-02T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10362/34384
TID:201897695
url http://hdl.handle.net/10362/34384
identifier_str_mv TID:201897695
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799137926087442432