Machine and deep learning applied to galaxy morphology
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Tese |
Idioma: | eng |
Título da fonte: | Biblioteca Digital de Teses e Dissertações do INPE |
Texto Completo: | http://urlib.net/sid.inpe.br/mtc-m21c/2020/03.09.19.33 |
Resumo: | Morphological classification is a key piece of information to define samples of galaxies aiming to study the large-scale structure of the universe. In essence, the challenge is to build up a robust methodology to perform a reliable morphological estimate from galaxy images. Here, I investigate how to substantially improve the galaxy classification within large datasets by mimicking human classification. I combine accurate visual classifications from the Galaxy Zoo project with machine and deep learning methodologies. I propose two distinct approaches for galaxy morphology: one based on non-parametric morphology and traditional machine learning algorithms; and another based on deep learning. To measure the input features for the traditional machine learning methodology, I and my collaborators have developed a system called CyMorph, with a novel non-parametric approach to study galaxy morphology. The main datasets employed comes from the Sloan Digital Sky Survey Data Release 7 (SDSS-DR7). I also discuss the class imbalance problem considering three classes. Performance of each model is mainly measured by overall accuracy (OA). A spectroscopic validation with astrophysical parameters is also provided for Decision Tree models to assess the quality of our morphological classification. In all of our samples, both Deep and Traditional Machine Learning approaches have over 94.5% OA to classify galaxies in two classes (elliptical and spiral). I compare our classification with state-of-the-art morphological classification from literature. Considering only two classes separation, I achieve 99% OA in average when using our deep learning models, and 82% when using three classes. I provide a catalog with 670,560 galaxies containing our best results, including morphological metrics and classification. |
id |
INPE_31f74f3fb09ddf14931dc244c748990e |
---|---|
oai_identifier_str |
oai:urlib.net:sid.inpe.br/mtc-m21c/2020/03.09.19.33.23-0 |
network_acronym_str |
INPE |
network_name_str |
Biblioteca Digital de Teses e Dissertações do INPE |
spelling |
info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisMachine and deep learning applied to galaxy morphologyAprendizado de máquina tradicional e profundo aplicado a morfologia de galáxias2020-03-09Reinaldo Roberto RosaReinaldo Ramos de CarvalhoThales Sehn KörtingKarín Menéndez-DelmestreIrapuan Rodrigues de Oliveira FilhoPaulo Henrique BarchiInstituto Nacional de Pesquisas Espaciais (INPE)Programa de Pós-Graduação do INPE em Computação AplicadaINPEBRcomputational astrophysicsgalaxy morphologymachine learningdeep learningastrofísica computacionalmorfologia de galáxiasaprendizado de máquinaaprendizado de máquina profundoMorphological classification is a key piece of information to define samples of galaxies aiming to study the large-scale structure of the universe. In essence, the challenge is to build up a robust methodology to perform a reliable morphological estimate from galaxy images. Here, I investigate how to substantially improve the galaxy classification within large datasets by mimicking human classification. I combine accurate visual classifications from the Galaxy Zoo project with machine and deep learning methodologies. I propose two distinct approaches for galaxy morphology: one based on non-parametric morphology and traditional machine learning algorithms; and another based on deep learning. To measure the input features for the traditional machine learning methodology, I and my collaborators have developed a system called CyMorph, with a novel non-parametric approach to study galaxy morphology. The main datasets employed comes from the Sloan Digital Sky Survey Data Release 7 (SDSS-DR7). I also discuss the class imbalance problem considering three classes. Performance of each model is mainly measured by overall accuracy (OA). A spectroscopic validation with astrophysical parameters is also provided for Decision Tree models to assess the quality of our morphological classification. In all of our samples, both Deep and Traditional Machine Learning approaches have over 94.5% OA to classify galaxies in two classes (elliptical and spiral). I compare our classification with state-of-the-art morphological classification from literature. Considering only two classes separation, I achieve 99% OA in average when using our deep learning models, and 82% when using three classes. I provide a catalog with 670,560 galaxies containing our best results, including morphological metrics and classification.Classificação morfológica é peça chave de informação para definir amostras de galáxias com objetivo de estudar a estrutura do Universo em larga-escala. Em essência, o desafio é construir uma metodologia robusta para produzir uma estimativa morfológica confiável a partir de imagens de galáxias. Aqui, investigo como melhorar substancialmente a classificação automática de galáxias em grandes conjuntos de dados ao imitar a classificação fornecida por humanos. Combino classificações visuais do projeto Galaxy Zoo com metodologias de aprendizado de máquina tradicional e profundo. Proponho duas abordagens distintas para morfologias de galáxias: uma baseada em morfologia não-paramétrica e algoritmos de aprendizado de máquina tradicional; e outra baseada em aprendizado profundo. Para medir as características morfológicas de entrada para algoritmos de aprendizado de máquina tradicional, desenvolvi com meus colaboradores um sistema chamado CyMorph, com uma nova abordagem não-paramétrica para estudar morfologia de galáxias. O principal conjunto de dados explorado provém do Sloan Digital Sky Survey Data Release 7 (SDSS-DR7). Também discuto o problema de desbalanceamento de classes considerando o problema com três classes. A performance de cada modelo é medida principalmente por acurácia global. A validação espectroscópica com parâmetros astrofísicos também é fornecida para os modelos de Árvore de Decisão para avaliar a qualidade de nossa classificação morfológica. Em todas as nossas amostras, tanto com aprendizado de máquina profundo como tradicional, obtenho mais de 94.5% de acurácia global para classificar galáxias em duas classes (elíptica e espiral). Comparo minha classificação com classificações morfológicas do estado-da-arte da literatura. Considerando apenas duas classes, atingi 99% de acurácia global e média usando modelos de aprendizado profundo, e 82% usando três classes. Forneço uma catálogo com 670.560 galáxias contendo nossos melhores resultados, incluindo métricas morfológicas e classificações.http://urlib.net/sid.inpe.br/mtc-m21c/2020/03.09.19.33info:eu-repo/semantics/openAccessengreponame:Biblioteca Digital de Teses e Dissertações do INPEinstname:Instituto Nacional de Pesquisas Espaciais (INPE)instacron:INPE2021-07-31T06:56:14Zoai:urlib.net:sid.inpe.br/mtc-m21c/2020/03.09.19.33.23-0Biblioteca Digital de Teses e Dissertaçõeshttp://bibdigital.sid.inpe.br/PUBhttp://bibdigital.sid.inpe.br/col/iconet.com.br/banon/2003/11.21.21.08/doc/oai.cgiopendoar:32772021-07-31 06:56:14.99Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)false |
dc.title.en.fl_str_mv |
Machine and deep learning applied to galaxy morphology |
dc.title.alternative.pt.fl_str_mv |
Aprendizado de máquina tradicional e profundo aplicado a morfologia de galáxias |
title |
Machine and deep learning applied to galaxy morphology |
spellingShingle |
Machine and deep learning applied to galaxy morphology Paulo Henrique Barchi |
title_short |
Machine and deep learning applied to galaxy morphology |
title_full |
Machine and deep learning applied to galaxy morphology |
title_fullStr |
Machine and deep learning applied to galaxy morphology |
title_full_unstemmed |
Machine and deep learning applied to galaxy morphology |
title_sort |
Machine and deep learning applied to galaxy morphology |
author |
Paulo Henrique Barchi |
author_facet |
Paulo Henrique Barchi |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Reinaldo Roberto Rosa |
dc.contributor.advisor2.fl_str_mv |
Reinaldo Ramos de Carvalho |
dc.contributor.referee1.fl_str_mv |
Thales Sehn Körting |
dc.contributor.referee2.fl_str_mv |
Karín Menéndez-Delmestre |
dc.contributor.referee3.fl_str_mv |
Irapuan Rodrigues de Oliveira Filho |
dc.contributor.author.fl_str_mv |
Paulo Henrique Barchi |
contributor_str_mv |
Reinaldo Roberto Rosa Reinaldo Ramos de Carvalho Thales Sehn Körting Karín Menéndez-Delmestre Irapuan Rodrigues de Oliveira Filho |
dc.description.abstract.por.fl_txt_mv |
Morphological classification is a key piece of information to define samples of galaxies aiming to study the large-scale structure of the universe. In essence, the challenge is to build up a robust methodology to perform a reliable morphological estimate from galaxy images. Here, I investigate how to substantially improve the galaxy classification within large datasets by mimicking human classification. I combine accurate visual classifications from the Galaxy Zoo project with machine and deep learning methodologies. I propose two distinct approaches for galaxy morphology: one based on non-parametric morphology and traditional machine learning algorithms; and another based on deep learning. To measure the input features for the traditional machine learning methodology, I and my collaborators have developed a system called CyMorph, with a novel non-parametric approach to study galaxy morphology. The main datasets employed comes from the Sloan Digital Sky Survey Data Release 7 (SDSS-DR7). I also discuss the class imbalance problem considering three classes. Performance of each model is mainly measured by overall accuracy (OA). A spectroscopic validation with astrophysical parameters is also provided for Decision Tree models to assess the quality of our morphological classification. In all of our samples, both Deep and Traditional Machine Learning approaches have over 94.5% OA to classify galaxies in two classes (elliptical and spiral). I compare our classification with state-of-the-art morphological classification from literature. Considering only two classes separation, I achieve 99% OA in average when using our deep learning models, and 82% when using three classes. I provide a catalog with 670,560 galaxies containing our best results, including morphological metrics and classification. Classificação morfológica é peça chave de informação para definir amostras de galáxias com objetivo de estudar a estrutura do Universo em larga-escala. Em essência, o desafio é construir uma metodologia robusta para produzir uma estimativa morfológica confiável a partir de imagens de galáxias. Aqui, investigo como melhorar substancialmente a classificação automática de galáxias em grandes conjuntos de dados ao imitar a classificação fornecida por humanos. Combino classificações visuais do projeto Galaxy Zoo com metodologias de aprendizado de máquina tradicional e profundo. Proponho duas abordagens distintas para morfologias de galáxias: uma baseada em morfologia não-paramétrica e algoritmos de aprendizado de máquina tradicional; e outra baseada em aprendizado profundo. Para medir as características morfológicas de entrada para algoritmos de aprendizado de máquina tradicional, desenvolvi com meus colaboradores um sistema chamado CyMorph, com uma nova abordagem não-paramétrica para estudar morfologia de galáxias. O principal conjunto de dados explorado provém do Sloan Digital Sky Survey Data Release 7 (SDSS-DR7). Também discuto o problema de desbalanceamento de classes considerando o problema com três classes. A performance de cada modelo é medida principalmente por acurácia global. A validação espectroscópica com parâmetros astrofísicos também é fornecida para os modelos de Árvore de Decisão para avaliar a qualidade de nossa classificação morfológica. Em todas as nossas amostras, tanto com aprendizado de máquina profundo como tradicional, obtenho mais de 94.5% de acurácia global para classificar galáxias em duas classes (elíptica e espiral). Comparo minha classificação com classificações morfológicas do estado-da-arte da literatura. Considerando apenas duas classes, atingi 99% de acurácia global e média usando modelos de aprendizado profundo, e 82% usando três classes. Forneço uma catálogo com 670.560 galáxias contendo nossos melhores resultados, incluindo métricas morfológicas e classificações. |
description |
Morphological classification is a key piece of information to define samples of galaxies aiming to study the large-scale structure of the universe. In essence, the challenge is to build up a robust methodology to perform a reliable morphological estimate from galaxy images. Here, I investigate how to substantially improve the galaxy classification within large datasets by mimicking human classification. I combine accurate visual classifications from the Galaxy Zoo project with machine and deep learning methodologies. I propose two distinct approaches for galaxy morphology: one based on non-parametric morphology and traditional machine learning algorithms; and another based on deep learning. To measure the input features for the traditional machine learning methodology, I and my collaborators have developed a system called CyMorph, with a novel non-parametric approach to study galaxy morphology. The main datasets employed comes from the Sloan Digital Sky Survey Data Release 7 (SDSS-DR7). I also discuss the class imbalance problem considering three classes. Performance of each model is mainly measured by overall accuracy (OA). A spectroscopic validation with astrophysical parameters is also provided for Decision Tree models to assess the quality of our morphological classification. In all of our samples, both Deep and Traditional Machine Learning approaches have over 94.5% OA to classify galaxies in two classes (elliptical and spiral). I compare our classification with state-of-the-art morphological classification from literature. Considering only two classes separation, I achieve 99% OA in average when using our deep learning models, and 82% when using three classes. I provide a catalog with 670,560 galaxies containing our best results, including morphological metrics and classification. |
publishDate |
2020 |
dc.date.issued.fl_str_mv |
2020-03-09 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
status_str |
publishedVersion |
format |
doctoralThesis |
dc.identifier.uri.fl_str_mv |
http://urlib.net/sid.inpe.br/mtc-m21c/2020/03.09.19.33 |
url |
http://urlib.net/sid.inpe.br/mtc-m21c/2020/03.09.19.33 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Instituto Nacional de Pesquisas Espaciais (INPE) |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação do INPE em Computação Aplicada |
dc.publisher.initials.fl_str_mv |
INPE |
dc.publisher.country.fl_str_mv |
BR |
publisher.none.fl_str_mv |
Instituto Nacional de Pesquisas Espaciais (INPE) |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do INPE instname:Instituto Nacional de Pesquisas Espaciais (INPE) instacron:INPE |
reponame_str |
Biblioteca Digital de Teses e Dissertações do INPE |
collection |
Biblioteca Digital de Teses e Dissertações do INPE |
instname_str |
Instituto Nacional de Pesquisas Espaciais (INPE) |
instacron_str |
INPE |
institution |
INPE |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE) |
repository.mail.fl_str_mv |
|
publisher_program_txtF_mv |
Programa de Pós-Graduação do INPE em Computação Aplicada |
contributor_advisor1_txtF_mv |
Reinaldo Roberto Rosa |
_version_ |
1706809363410190336 |