Machine and deep learning applied to galaxy morphology

Paulo Henrique Barchi

Machine and deep learning applied to galaxy morphology

Detalhes bibliográficos
Autor(a) principal:	Paulo Henrique Barchi
Data de Publicação:	2020
Tipo de documento:	Tese
Idioma:	eng
Título da fonte:	Biblioteca Digital de Teses e Dissertações do INPE
Texto Completo:	http://urlib.net/sid.inpe.br/mtc-m21c/2020/03.09.19.33
Resumo:	Morphological classification is a key piece of information to define samples of galaxies aiming to study the large-scale structure of the universe. In essence, the challenge is to build up a robust methodology to perform a reliable morphological estimate from galaxy images. Here, I investigate how to substantially improve the galaxy classification within large datasets by mimicking human classification. I combine accurate visual classifications from the Galaxy Zoo project with machine and deep learning methodologies. I propose two distinct approaches for galaxy morphology: one based on non-parametric morphology and traditional machine learning algorithms; and another based on deep learning. To measure the input features for the traditional machine learning methodology, I and my collaborators have developed a system called CyMorph, with a novel non-parametric approach to study galaxy morphology. The main datasets employed comes from the Sloan Digital Sky Survey Data Release 7 (SDSS-DR7). I also discuss the class imbalance problem considering three classes. Performance of each model is mainly measured by overall accuracy (OA). A spectroscopic validation with astrophysical parameters is also provided for Decision Tree models to assess the quality of our morphological classification. In all of our samples, both Deep and Traditional Machine Learning approaches have over 94.5% OA to classify galaxies in two classes (elliptical and spiral). I compare our classification with state-of-the-art morphological classification from literature. Considering only two classes separation, I achieve 99% OA in average when using our deep learning models, and 82% when using three classes. I provide a catalog with 670,560 galaxies containing our best results, including morphological metrics and classification.

Metadados do item

id	INPE_31f74f3fb09ddf14931dc244c748990e
oai_identifier_str	oai:urlib.net:sid.inpe.br/mtc-m21c/2020/03.09.19.33.23-0
network_acronym_str	INPE
network_name_str	Biblioteca Digital de Teses e Dissertações do INPE
spelling	info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisMachine and deep learning applied to galaxy morphologyAprendizado de máquina tradicional e profundo aplicado a morfologia de galáxias2020-03-09Reinaldo Roberto RosaReinaldo Ramos de CarvalhoThales Sehn KörtingKarín Menéndez-DelmestreIrapuan Rodrigues de Oliveira FilhoPaulo Henrique BarchiInstituto Nacional de Pesquisas Espaciais (INPE)Programa de Pós-Graduação do INPE em Computação AplicadaINPEBRcomputational astrophysicsgalaxy morphologymachine learningdeep learningastrofísica computacionalmorfologia de galáxiasaprendizado de máquinaaprendizado de máquina profundoMorphological classification is a key piece of information to define samples of galaxies aiming to study the large-scale structure of the universe. In essence, the challenge is to build up a robust methodology to perform a reliable morphological estimate from galaxy images. Here, I investigate how to substantially improve the galaxy classification within large datasets by mimicking human classification. I combine accurate visual classifications from the Galaxy Zoo project with machine and deep learning methodologies. I propose two distinct approaches for galaxy morphology: one based on non-parametric morphology and traditional machine learning algorithms; and another based on deep learning. To measure the input features for the traditional machine learning methodology, I and my collaborators have developed a system called CyMorph, with a novel non-parametric approach to study galaxy morphology. The main datasets employed comes from the Sloan Digital Sky Survey Data Release 7 (SDSS-DR7). I also discuss the class imbalance problem considering three classes. Performance of each model is mainly measured by overall accuracy (OA). A spectroscopic validation with astrophysical parameters is also provided for Decision Tree models to assess the quality of our morphological classification. In all of our samples, both Deep and Traditional Machine Learning approaches have over 94.5% OA to classify galaxies in two classes (elliptical and spiral). I compare our classification with state-of-the-art morphological classification from literature. Considering only two classes separation, I achieve 99% OA in average when using our deep learning models, and 82% when using three classes. I provide a catalog with 670,560 galaxies containing our best results, including morphological metrics and classification.Classificação morfológica é peça chave de informação para definir amostras de galáxias com objetivo de estudar a estrutura do Universo em larga-escala. Em essência, o desafio é construir uma metodologia robusta para produzir uma estimativa morfológica confiável a partir de imagens de galáxias. Aqui, investigo como melhorar substancialmente a classificação automática de galáxias em grandes conjuntos de dados ao imitar a classificação fornecida por humanos. Combino classificações visuais do projeto Galaxy Zoo com metodologias de aprendizado de máquina tradicional e profundo. Proponho duas abordagens distintas para morfologias de galáxias: uma baseada em morfologia não-paramétrica e algoritmos de aprendizado de máquina tradicional; e outra baseada em aprendizado profundo. Para medir as características morfológicas de entrada para algoritmos de aprendizado de máquina tradicional, desenvolvi com meus colaboradores um sistema chamado CyMorph, com uma nova abordagem não-paramétrica para estudar morfologia de galáxias. O principal conjunto de dados explorado provém do Sloan Digital Sky Survey Data Release 7 (SDSS-DR7). Também discuto o problema de desbalanceamento de classes considerando o problema com três classes. A performance de cada modelo é medida principalmente por acurácia global. A validação espectroscópica com parâmetros astrofísicos também é fornecida para os modelos de Árvore de Decisão para avaliar a qualidade de nossa classificação morfológica. Em todas as nossas amostras, tanto com aprendizado de máquina profundo como tradicional, obtenho mais de 94.5% de acurácia global para classificar galáxias em duas classes (elíptica e espiral). Comparo minha classificação com classificações morfológicas do estado-da-arte da literatura. Considerando apenas duas classes, atingi 99% de acurácia global e média usando modelos de aprendizado profundo, e 82% usando três classes. Forneço uma catálogo com 670.560 galáxias contendo nossos melhores resultados, incluindo métricas morfológicas e classificações.http://urlib.net/sid.inpe.br/mtc-m21c/2020/03.09.19.33info:eu-repo/semantics/openAccessengreponame:Biblioteca Digital de Teses e Dissertações do INPEinstname:Instituto Nacional de Pesquisas Espaciais (INPE)instacron:INPE2021-07-31T06:56:14Zoai:urlib.net:sid.inpe.br/mtc-m21c/2020/03.09.19.33.23-0Biblioteca Digital de Teses e Dissertaçõeshttp://bibdigital.sid.inpe.br/PUBhttp://bibdigital.sid.inpe.br/col/iconet.com.br/banon/2003/11.21.21.08/doc/oai.cgiopendoar:32772021-07-31 06:56:14.99Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)false
dc.title.en.fl_str_mv	Machine and deep learning applied to galaxy morphology
dc.title.alternative.pt.fl_str_mv	Aprendizado de máquina tradicional e profundo aplicado a morfologia de galáxias
title	Machine and deep learning applied to galaxy morphology
spellingShingle	Machine and deep learning applied to galaxy morphology Paulo Henrique Barchi
title_short	Machine and deep learning applied to galaxy morphology
title_full	Machine and deep learning applied to galaxy morphology
title_fullStr	Machine and deep learning applied to galaxy morphology
title_full_unstemmed	Machine and deep learning applied to galaxy morphology
title_sort	Machine and deep learning applied to galaxy morphology
author	Paulo Henrique Barchi
author_facet	Paulo Henrique Barchi
author_role	author
dc.contributor.advisor1.fl_str_mv	Reinaldo Roberto Rosa
dc.contributor.advisor2.fl_str_mv	Reinaldo Ramos de Carvalho
dc.contributor.referee1.fl_str_mv	Thales Sehn Körting
dc.contributor.referee2.fl_str_mv	Karín Menéndez-Delmestre
dc.contributor.referee3.fl_str_mv	Irapuan Rodrigues de Oliveira Filho
dc.contributor.author.fl_str_mv	Paulo Henrique Barchi
contributor_str_mv	Reinaldo Roberto Rosa Reinaldo Ramos de Carvalho Thales Sehn Körting Karín Menéndez-Delmestre Irapuan Rodrigues de Oliveira Filho
dc.description.abstract.por.fl_txt_mv	Morphological classification is a key piece of information to define samples of galaxies aiming to study the large-scale structure of the universe. In essence, the challenge is to build up a robust methodology to perform a reliable morphological estimate from galaxy images. Here, I investigate how to substantially improve the galaxy classification within large datasets by mimicking human classification. I combine accurate visual classifications from the Galaxy Zoo project with machine and deep learning methodologies. I propose two distinct approaches for galaxy morphology: one based on non-parametric morphology and traditional machine learning algorithms; and another based on deep learning. To measure the input features for the traditional machine learning methodology, I and my collaborators have developed a system called CyMorph, with a novel non-parametric approach to study galaxy morphology. The main datasets employed comes from the Sloan Digital Sky Survey Data Release 7 (SDSS-DR7). I also discuss the class imbalance problem considering three classes. Performance of each model is mainly measured by overall accuracy (OA). A spectroscopic validation with astrophysical parameters is also provided for Decision Tree models to assess the quality of our morphological classification. In all of our samples, both Deep and Traditional Machine Learning approaches have over 94.5% OA to classify galaxies in two classes (elliptical and spiral). I compare our classification with state-of-the-art morphological classification from literature. Considering only two classes separation, I achieve 99% OA in average when using our deep learning models, and 82% when using three classes. I provide a catalog with 670,560 galaxies containing our best results, including morphological metrics and classification. Classificação morfológica é peça chave de informação para definir amostras de galáxias com objetivo de estudar a estrutura do Universo em larga-escala. Em essência, o desafio é construir uma metodologia robusta para produzir uma estimativa morfológica confiável a partir de imagens de galáxias. Aqui, investigo como melhorar substancialmente a classificação automática de galáxias em grandes conjuntos de dados ao imitar a classificação fornecida por humanos. Combino classificações visuais do projeto Galaxy Zoo com metodologias de aprendizado de máquina tradicional e profundo. Proponho duas abordagens distintas para morfologias de galáxias: uma baseada em morfologia não-paramétrica e algoritmos de aprendizado de máquina tradicional; e outra baseada em aprendizado profundo. Para medir as características morfológicas de entrada para algoritmos de aprendizado de máquina tradicional, desenvolvi com meus colaboradores um sistema chamado CyMorph, com uma nova abordagem não-paramétrica para estudar morfologia de galáxias. O principal conjunto de dados explorado provém do Sloan Digital Sky Survey Data Release 7 (SDSS-DR7). Também discuto o problema de desbalanceamento de classes considerando o problema com três classes. A performance de cada modelo é medida principalmente por acurácia global. A validação espectroscópica com parâmetros astrofísicos também é fornecida para os modelos de Árvore de Decisão para avaliar a qualidade de nossa classificação morfológica. Em todas as nossas amostras, tanto com aprendizado de máquina profundo como tradicional, obtenho mais de 94.5% de acurácia global para classificar galáxias em duas classes (elíptica e espiral). Comparo minha classificação com classificações morfológicas do estado-da-arte da literatura. Considerando apenas duas classes, atingi 99% de acurácia global e média usando modelos de aprendizado profundo, e 82% usando três classes. Forneço uma catálogo com 670.560 galáxias contendo nossos melhores resultados, incluindo métricas morfológicas e classificações.
description	Morphological classification is a key piece of information to define samples of galaxies aiming to study the large-scale structure of the universe. In essence, the challenge is to build up a robust methodology to perform a reliable morphological estimate from galaxy images. Here, I investigate how to substantially improve the galaxy classification within large datasets by mimicking human classification. I combine accurate visual classifications from the Galaxy Zoo project with machine and deep learning methodologies. I propose two distinct approaches for galaxy morphology: one based on non-parametric morphology and traditional machine learning algorithms; and another based on deep learning. To measure the input features for the traditional machine learning methodology, I and my collaborators have developed a system called CyMorph, with a novel non-parametric approach to study galaxy morphology. The main datasets employed comes from the Sloan Digital Sky Survey Data Release 7 (SDSS-DR7). I also discuss the class imbalance problem considering three classes. Performance of each model is mainly measured by overall accuracy (OA). A spectroscopic validation with astrophysical parameters is also provided for Decision Tree models to assess the quality of our morphological classification. In all of our samples, both Deep and Traditional Machine Learning approaches have over 94.5% OA to classify galaxies in two classes (elliptical and spiral). I compare our classification with state-of-the-art morphological classification from literature. Considering only two classes separation, I achieve 99% OA in average when using our deep learning models, and 82% when using three classes. I provide a catalog with 670,560 galaxies containing our best results, including morphological metrics and classification.
publishDate	2020
dc.date.issued.fl_str_mv	2020-03-09
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
status_str	publishedVersion
format	doctoralThesis
dc.identifier.uri.fl_str_mv	http://urlib.net/sid.inpe.br/mtc-m21c/2020/03.09.19.33
url	http://urlib.net/sid.inpe.br/mtc-m21c/2020/03.09.19.33
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Instituto Nacional de Pesquisas Espaciais (INPE)
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação do INPE em Computação Aplicada
dc.publisher.initials.fl_str_mv	INPE
dc.publisher.country.fl_str_mv	BR
publisher.none.fl_str_mv	Instituto Nacional de Pesquisas Espaciais (INPE)
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações do INPE instname:Instituto Nacional de Pesquisas Espaciais (INPE) instacron:INPE
reponame_str	Biblioteca Digital de Teses e Dissertações do INPE
collection	Biblioteca Digital de Teses e Dissertações do INPE
instname_str	Instituto Nacional de Pesquisas Espaciais (INPE)
instacron_str	INPE
institution	INPE
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)
repository.mail.fl_str_mv
publisher_program_txtF_mv	Programa de Pós-Graduação do INPE em Computação Aplicada
contributor_advisor1_txtF_mv	Reinaldo Roberto Rosa
_version_	1706809363410190336

Machine and deep learning applied to galaxy morphology

Registros relacionados