Machine and deep learning applied to galaxy morphology

Detalhes bibliográficos
Autor(a) principal: Paulo Henrique Barchi
Data de Publicação: 2020
Tipo de documento: Tese
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações do INPE
Texto Completo: http://urlib.net/sid.inpe.br/mtc-m21c/2020/03.09.19.33
Resumo: Morphological classification is a key piece of information to define samples of galaxies aiming to study the large-scale structure of the universe. In essence, the challenge is to build up a robust methodology to perform a reliable morphological estimate from galaxy images. Here, I investigate how to substantially improve the galaxy classification within large datasets by mimicking human classification. I combine accurate visual classifications from the Galaxy Zoo project with machine and deep learning methodologies. I propose two distinct approaches for galaxy morphology: one based on non-parametric morphology and traditional machine learning algorithms; and another based on deep learning. To measure the input features for the traditional machine learning methodology, I and my collaborators have developed a system called CyMorph, with a novel non-parametric approach to study galaxy morphology. The main datasets employed comes from the Sloan Digital Sky Survey Data Release 7 (SDSS-DR7). I also discuss the class imbalance problem considering three classes. Performance of each model is mainly measured by overall accuracy (OA). A spectroscopic validation with astrophysical parameters is also provided for Decision Tree models to assess the quality of our morphological classification. In all of our samples, both Deep and Traditional Machine Learning approaches have over 94.5% OA to classify galaxies in two classes (elliptical and spiral). I compare our classification with state-of-the-art morphological classification from literature. Considering only two classes separation, I achieve 99% OA in average when using our deep learning models, and 82% when using three classes. I provide a catalog with 670,560 galaxies containing our best results, including morphological metrics and classification.
id INPE_31f74f3fb09ddf14931dc244c748990e
oai_identifier_str oai:urlib.net:sid.inpe.br/mtc-m21c/2020/03.09.19.33.23-0
network_acronym_str INPE
network_name_str Biblioteca Digital de Teses e Dissertações do INPE
spelling info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisMachine and deep learning applied to galaxy morphologyAprendizado de máquina tradicional e profundo aplicado a morfologia de galáxias2020-03-09Reinaldo Roberto RosaReinaldo Ramos de CarvalhoThales Sehn KörtingKarín Menéndez-DelmestreIrapuan Rodrigues de Oliveira FilhoPaulo Henrique BarchiInstituto Nacional de Pesquisas Espaciais (INPE)Programa de Pós-Graduação do INPE em Computação AplicadaINPEBRcomputational astrophysicsgalaxy morphologymachine learningdeep learningastrofísica computacionalmorfologia de galáxiasaprendizado de máquinaaprendizado de máquina profundoMorphological classification is a key piece of information to define samples of galaxies aiming to study the large-scale structure of the universe. In essence, the challenge is to build up a robust methodology to perform a reliable morphological estimate from galaxy images. Here, I investigate how to substantially improve the galaxy classification within large datasets by mimicking human classification. I combine accurate visual classifications from the Galaxy Zoo project with machine and deep learning methodologies. I propose two distinct approaches for galaxy morphology: one based on non-parametric morphology and traditional machine learning algorithms; and another based on deep learning. To measure the input features for the traditional machine learning methodology, I and my collaborators have developed a system called CyMorph, with a novel non-parametric approach to study galaxy morphology. The main datasets employed comes from the Sloan Digital Sky Survey Data Release 7 (SDSS-DR7). I also discuss the class imbalance problem considering three classes. Performance of each model is mainly measured by overall accuracy (OA). A spectroscopic validation with astrophysical parameters is also provided for Decision Tree models to assess the quality of our morphological classification. In all of our samples, both Deep and Traditional Machine Learning approaches have over 94.5% OA to classify galaxies in two classes (elliptical and spiral). I compare our classification with state-of-the-art morphological classification from literature. Considering only two classes separation, I achieve 99% OA in average when using our deep learning models, and 82% when using three classes. I provide a catalog with 670,560 galaxies containing our best results, including morphological metrics and classification.Classificação morfológica é peça chave de informação para definir amostras de galáxias com objetivo de estudar a estrutura do Universo em larga-escala. Em essência, o desafio é construir uma metodologia robusta para produzir uma estimativa morfológica confiável a partir de imagens de galáxias. Aqui, investigo como melhorar substancialmente a classificação automática de galáxias em grandes conjuntos de dados ao imitar a classificação fornecida por humanos. Combino classificações visuais do projeto Galaxy Zoo com metodologias de aprendizado de máquina tradicional e profundo. Proponho duas abordagens distintas para morfologias de galáxias: uma baseada em morfologia não-paramétrica e algoritmos de aprendizado de máquina tradicional; e outra baseada em aprendizado profundo. Para medir as características morfológicas de entrada para algoritmos de aprendizado de máquina tradicional, desenvolvi com meus colaboradores um sistema chamado CyMorph, com uma nova abordagem não-paramétrica para estudar morfologia de galáxias. O principal conjunto de dados explorado provém do Sloan Digital Sky Survey Data Release 7 (SDSS-DR7). Também discuto o problema de desbalanceamento de classes considerando o problema com três classes. A performance de cada modelo é medida principalmente por acurácia global. A validação espectroscópica com parâmetros astrofísicos também é fornecida para os modelos de Árvore de Decisão para avaliar a qualidade de nossa classificação morfológica. Em todas as nossas amostras, tanto com aprendizado de máquina profundo como tradicional, obtenho mais de 94.5% de acurácia global para classificar galáxias em duas classes (elíptica e espiral). Comparo minha classificação com classificações morfológicas do estado-da-arte da literatura. Considerando apenas duas classes, atingi 99% de acurácia global e média usando modelos de aprendizado profundo, e 82% usando três classes. Forneço uma catálogo com 670.560 galáxias contendo nossos melhores resultados, incluindo métricas morfológicas e classificações.http://urlib.net/sid.inpe.br/mtc-m21c/2020/03.09.19.33info:eu-repo/semantics/openAccessengreponame:Biblioteca Digital de Teses e Dissertações do INPEinstname:Instituto Nacional de Pesquisas Espaciais (INPE)instacron:INPE2021-07-31T06:56:14Zoai:urlib.net:sid.inpe.br/mtc-m21c/2020/03.09.19.33.23-0Biblioteca Digital de Teses e Dissertaçõeshttp://bibdigital.sid.inpe.br/PUBhttp://bibdigital.sid.inpe.br/col/iconet.com.br/banon/2003/11.21.21.08/doc/oai.cgiopendoar:32772021-07-31 06:56:14.99Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)false
dc.title.en.fl_str_mv Machine and deep learning applied to galaxy morphology
dc.title.alternative.pt.fl_str_mv Aprendizado de máquina tradicional e profundo aplicado a morfologia de galáxias
title Machine and deep learning applied to galaxy morphology
spellingShingle Machine and deep learning applied to galaxy morphology
Paulo Henrique Barchi
title_short Machine and deep learning applied to galaxy morphology
title_full Machine and deep learning applied to galaxy morphology
title_fullStr Machine and deep learning applied to galaxy morphology
title_full_unstemmed Machine and deep learning applied to galaxy morphology
title_sort Machine and deep learning applied to galaxy morphology
author Paulo Henrique Barchi
author_facet Paulo Henrique Barchi
author_role author
dc.contributor.advisor1.fl_str_mv Reinaldo Roberto Rosa
dc.contributor.advisor2.fl_str_mv Reinaldo Ramos de Carvalho
dc.contributor.referee1.fl_str_mv Thales Sehn Körting
dc.contributor.referee2.fl_str_mv Karín Menéndez-Delmestre
dc.contributor.referee3.fl_str_mv Irapuan Rodrigues de Oliveira Filho
dc.contributor.author.fl_str_mv Paulo Henrique Barchi
contributor_str_mv Reinaldo Roberto Rosa
Reinaldo Ramos de Carvalho
Thales Sehn Körting
Karín Menéndez-Delmestre
Irapuan Rodrigues de Oliveira Filho
dc.description.abstract.por.fl_txt_mv Morphological classification is a key piece of information to define samples of galaxies aiming to study the large-scale structure of the universe. In essence, the challenge is to build up a robust methodology to perform a reliable morphological estimate from galaxy images. Here, I investigate how to substantially improve the galaxy classification within large datasets by mimicking human classification. I combine accurate visual classifications from the Galaxy Zoo project with machine and deep learning methodologies. I propose two distinct approaches for galaxy morphology: one based on non-parametric morphology and traditional machine learning algorithms; and another based on deep learning. To measure the input features for the traditional machine learning methodology, I and my collaborators have developed a system called CyMorph, with a novel non-parametric approach to study galaxy morphology. The main datasets employed comes from the Sloan Digital Sky Survey Data Release 7 (SDSS-DR7). I also discuss the class imbalance problem considering three classes. Performance of each model is mainly measured by overall accuracy (OA). A spectroscopic validation with astrophysical parameters is also provided for Decision Tree models to assess the quality of our morphological classification. In all of our samples, both Deep and Traditional Machine Learning approaches have over 94.5% OA to classify galaxies in two classes (elliptical and spiral). I compare our classification with state-of-the-art morphological classification from literature. Considering only two classes separation, I achieve 99% OA in average when using our deep learning models, and 82% when using three classes. I provide a catalog with 670,560 galaxies containing our best results, including morphological metrics and classification.
Classificação morfológica é peça chave de informação para definir amostras de galáxias com objetivo de estudar a estrutura do Universo em larga-escala. Em essência, o desafio é construir uma metodologia robusta para produzir uma estimativa morfológica confiável a partir de imagens de galáxias. Aqui, investigo como melhorar substancialmente a classificação automática de galáxias em grandes conjuntos de dados ao imitar a classificação fornecida por humanos. Combino classificações visuais do projeto Galaxy Zoo com metodologias de aprendizado de máquina tradicional e profundo. Proponho duas abordagens distintas para morfologias de galáxias: uma baseada em morfologia não-paramétrica e algoritmos de aprendizado de máquina tradicional; e outra baseada em aprendizado profundo. Para medir as características morfológicas de entrada para algoritmos de aprendizado de máquina tradicional, desenvolvi com meus colaboradores um sistema chamado CyMorph, com uma nova abordagem não-paramétrica para estudar morfologia de galáxias. O principal conjunto de dados explorado provém do Sloan Digital Sky Survey Data Release 7 (SDSS-DR7). Também discuto o problema de desbalanceamento de classes considerando o problema com três classes. A performance de cada modelo é medida principalmente por acurácia global. A validação espectroscópica com parâmetros astrofísicos também é fornecida para os modelos de Árvore de Decisão para avaliar a qualidade de nossa classificação morfológica. Em todas as nossas amostras, tanto com aprendizado de máquina profundo como tradicional, obtenho mais de 94.5% de acurácia global para classificar galáxias em duas classes (elíptica e espiral). Comparo minha classificação com classificações morfológicas do estado-da-arte da literatura. Considerando apenas duas classes, atingi 99% de acurácia global e média usando modelos de aprendizado profundo, e 82% usando três classes. Forneço uma catálogo com 670.560 galáxias contendo nossos melhores resultados, incluindo métricas morfológicas e classificações.
description Morphological classification is a key piece of information to define samples of galaxies aiming to study the large-scale structure of the universe. In essence, the challenge is to build up a robust methodology to perform a reliable morphological estimate from galaxy images. Here, I investigate how to substantially improve the galaxy classification within large datasets by mimicking human classification. I combine accurate visual classifications from the Galaxy Zoo project with machine and deep learning methodologies. I propose two distinct approaches for galaxy morphology: one based on non-parametric morphology and traditional machine learning algorithms; and another based on deep learning. To measure the input features for the traditional machine learning methodology, I and my collaborators have developed a system called CyMorph, with a novel non-parametric approach to study galaxy morphology. The main datasets employed comes from the Sloan Digital Sky Survey Data Release 7 (SDSS-DR7). I also discuss the class imbalance problem considering three classes. Performance of each model is mainly measured by overall accuracy (OA). A spectroscopic validation with astrophysical parameters is also provided for Decision Tree models to assess the quality of our morphological classification. In all of our samples, both Deep and Traditional Machine Learning approaches have over 94.5% OA to classify galaxies in two classes (elliptical and spiral). I compare our classification with state-of-the-art morphological classification from literature. Considering only two classes separation, I achieve 99% OA in average when using our deep learning models, and 82% when using three classes. I provide a catalog with 670,560 galaxies containing our best results, including morphological metrics and classification.
publishDate 2020
dc.date.issued.fl_str_mv 2020-03-09
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
status_str publishedVersion
format doctoralThesis
dc.identifier.uri.fl_str_mv http://urlib.net/sid.inpe.br/mtc-m21c/2020/03.09.19.33
url http://urlib.net/sid.inpe.br/mtc-m21c/2020/03.09.19.33
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Instituto Nacional de Pesquisas Espaciais (INPE)
dc.publisher.program.fl_str_mv Programa de Pós-Graduação do INPE em Computação Aplicada
dc.publisher.initials.fl_str_mv INPE
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv Instituto Nacional de Pesquisas Espaciais (INPE)
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do INPE
instname:Instituto Nacional de Pesquisas Espaciais (INPE)
instacron:INPE
reponame_str Biblioteca Digital de Teses e Dissertações do INPE
collection Biblioteca Digital de Teses e Dissertações do INPE
instname_str Instituto Nacional de Pesquisas Espaciais (INPE)
instacron_str INPE
institution INPE
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)
repository.mail.fl_str_mv
publisher_program_txtF_mv Programa de Pós-Graduação do INPE em Computação Aplicada
contributor_advisor1_txtF_mv Reinaldo Roberto Rosa
_version_ 1706809363410190336