Árvores de decisão aplicadas ao problema da separação estrela/galáxia

Eduardo Charles Vasconcellos

Árvores de decisão aplicadas ao problema da separação estrela/galáxia

Detalhes bibliográficos
Autor(a) principal:	Eduardo Charles Vasconcellos
Data de Publicação:	2011
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações do INPE
Texto Completo:	http://urlib.net/sid.inpe.br/mtc-m19/2011/06.10.18.36
Resumo:	Neste trabalho estudamos a eficiência de 13 algoritmos distintos para construção de árvores de decisão quando aplicados a tarefa de separar estrelas de galáxias. Esta separação é procedida com base nos dados fotométricos da sétima disponibilização de dados do ``Sloan Digital Sky Survey `` (SDSS-DR7). Cada um dos algoritmos testados está contido no software WEKA e é definido por um conjunto de parâmetros que, quando variados, podem modificar a árvore de decisão gerada. Nós exploramos extensivamente o espaço de parâmetros de cada algoritmo usando um conjunto de treinamento composto por 880.715 objetos do SDSS-DR7 que possuem espectroscopia disponível. Buscamos a configuração otimizada que permitiria a construção de uma árvore capaz de separar estrelas e galáxias com a maior precisão possível. A eficiência da separação estrelai galáxia é medida usando a função de completeza (fração de galáxias classificadas corretamente). Nossos resultados mostraram que o algoritmo FT (\textit {Functional Trees}) obteve os melhores resultados, com base na função de completeza, para dois intervalos de magnitude: 14 $\leq$ {\it r} $\leq$ 21 (85.2\%) e {\it r} $\geq$ 19 (82.1\%). Comparamos o desempenho da árvore gerada pelo FT com sua melhor configuração com separações obtidas pelo método paramétrico do SDSS, pelo 2DPHOT e por Ball et al. (2006). Essa comparação mostrou que nossa árvore gerada com o FT tem, para magnitudes no intervalo 14 $\leq$ {\it r} < 19, um desempenho similar aos demais métodos em termos de completeza, mas com uma contaminação (fração de estrelas classificadas como galáxias) muito inferior a todas menos a obtida por Ball et al, (2006). Para magnitudes fracas ({\it r} $\geq$ 19), nossa árvore é o único separador que obtém uma alta completeza (>80\%) e uma baixa contaminação (\~{} 2.5\%). Executamos também um experimento utilizando uma máquina de comitê composta por árvores de decisão treinadas com todos os 13 algoritmos do WEKA. Este experimento resultou em uma queda na função de completeza de \~{}5\% para magnitudes maiores que {\it 19.5} $^{m}$ quando comparada à completeza obtida pelo FT. Por outro lado, a amostra de galáxias gerada pelo comitê apresenta uma contaminação aproximadamente 6\% menor que a gerada pelo FT. Por fim examinamos o separador paramétrico do SDSS (psfMag - modelMag) com intuito de verificar se a linha divisória que separa os objetos poderia ser mais precisa. Identificamos que muitos pares de estrelas próximas estão sendo classificados erroneamente como galáxias, e sugerimos um novo valor de corte para melhorar a precisão do separador do SDSS. Por fim, aplicamos nossa árvore de decisão gerada com o FT para separar estrelas de galáxias em todo o conjunto de 69.545.326 objetos da amostra fotométrica do SDSS-DR7 com magnitudes no intervalo 14 $\leq$ {\it r} $\leq$ 21.

Metadados do item

id	INPE_a27ea3930e3cd8e348b1baf1779addce
oai_identifier_str	oai:urlib.net:sid.inpe.br/mtc-m19/2011/06.10.18.36.22-0
network_acronym_str	INPE
network_name_str	Biblioteca Digital de Teses e Dissertações do INPE
spelling	info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisÁrvores de decisão aplicadas ao problema da separação estrela/galáxiaDecision trees applied as star/galaxy separator2011-04-15Haroldo Fraga de Campos VelhoReinaldo Ramos de CarvalhoReinaldo Roberto RosaHugo Vicente CapelatoJoão Luiz Kohl MoreiraEduardo Charles VasconcellosInstituto Nacional de Pesquisas EspaciaisPrograma de Pós-Graduação do INPE em Computação AplicadaINPEBRmineração de dadosárvores de decisãoSDSS datacatálogo estrela-galáxiadata miningdecision treesSDSS datestar-galaxy catalogNeste trabalho estudamos a eficiência de 13 algoritmos distintos para construção de árvores de decisão quando aplicados a tarefa de separar estrelas de galáxias. Esta separação é procedida com base nos dados fotométricos da sétima disponibilização de dados do ``Sloan Digital Sky Survey `` (SDSS-DR7). Cada um dos algoritmos testados está contido no software WEKA e é definido por um conjunto de parâmetros que, quando variados, podem modificar a árvore de decisão gerada. Nós exploramos extensivamente o espaço de parâmetros de cada algoritmo usando um conjunto de treinamento composto por 880.715 objetos do SDSS-DR7 que possuem espectroscopia disponível. Buscamos a configuração otimizada que permitiria a construção de uma árvore capaz de separar estrelas e galáxias com a maior precisão possível. A eficiência da separação estrelai galáxia é medida usando a função de completeza (fração de galáxias classificadas corretamente). Nossos resultados mostraram que o algoritmo FT (\textit {Functional Trees}) obteve os melhores resultados, com base na função de completeza, para dois intervalos de magnitude: 14 $\leq$ {\it r} $\leq$ 21 (85.2\%) e {\it r} $\geq$ 19 (82.1\%). Comparamos o desempenho da árvore gerada pelo FT com sua melhor configuração com separações obtidas pelo método paramétrico do SDSS, pelo 2DPHOT e por Ball et al. (2006). Essa comparação mostrou que nossa árvore gerada com o FT tem, para magnitudes no intervalo 14 $\leq$ {\it r} < 19, um desempenho similar aos demais métodos em termos de completeza, mas com uma contaminação (fração de estrelas classificadas como galáxias) muito inferior a todas menos a obtida por Ball et al, (2006). Para magnitudes fracas ({\it r} $\geq$ 19), nossa árvore é o único separador que obtém uma alta completeza (>80\%) e uma baixa contaminação (\~{} 2.5\%). Executamos também um experimento utilizando uma máquina de comitê composta por árvores de decisão treinadas com todos os 13 algoritmos do WEKA. Este experimento resultou em uma queda na função de completeza de \~{}5\% para magnitudes maiores que {\it 19.5} $^{m}$ quando comparada à completeza obtida pelo FT. Por outro lado, a amostra de galáxias gerada pelo comitê apresenta uma contaminação aproximadamente 6\% menor que a gerada pelo FT. Por fim examinamos o separador paramétrico do SDSS (psfMag - modelMag) com intuito de verificar se a linha divisória que separa os objetos poderia ser mais precisa. Identificamos que muitos pares de estrelas próximas estão sendo classificados erroneamente como galáxias, e sugerimos um novo valor de corte para melhorar a precisão do separador do SDSS. Por fim, aplicamos nossa árvore de decisão gerada com o FT para separar estrelas de galáxias em todo o conjunto de 69.545.326 objetos da amostra fotométrica do SDSS-DR7 com magnitudes no intervalo 14 $\leq$ {\it r} $\leq$ 21.We study the star / galaxy classification efficiency of 13 different decision tree algorithms applied to photometric objects in the Sloan Digital Sky Survey Data Release Seven (SDSS DR7). Each algorithm is defined by a set of parameters which, when varied, produce different final classification trees. We extensively explore the parameter space of each algorithm, using the set of 884, 126 SDSS objects with spectroscopic data as the training set. The efficiency of star-galaxy separation is measured using the completeness function. We find that the Functional Tree algorithm (FT) yields the best results as measured by the mean completeness in two magnitude intervals: 14 $\leq${\it r}$\leq$21 (85.2\%) and {\it r}$\geq$ 19 (82.1\%). We compare the performance of the tree generated with the optimal FT configuration to the classifications provided by the SDSS parametric classifier, 2DPHOT and Ball et alo (2006). We find that our FT classifier is comparable or better in completeness over the full magnitude range 15$\leq${\it r}$\leq$21, with much lower contamination than all but the Ball et alo (2006) classifier. At the faintest magnitudes ({\it r } > 19), our classifier is the only one that maintains high completeness (> 80\%) while simultaneously achieving low contamination (\~{} 2.5\%). We carried out an experiment with a decision tree committee machine designed with trees trained with all thirteen WEKA algorithms. The result was: for magnitudes greater then 20.5$^m$, in both a completeness \~{} 5\% and a contamination \~{}6\% lower than our pure FT tree. Finally we examine the SDSS parametric classifier (psfMag - modelMag) to see if the dividing line between stars and galaxies can be adjusted to improve the classifier. We find that currently, stars in close pairs are often misclassified as galaxies, and suggest a new cut to improve the classifier. Finally, we apply our FT classifier to separate stars from galaxies in the full set of 69,545,326 SDSS photometric objects in the magnitude range 14$\leq$ {\it r}$\leq$21.http://urlib.net/sid.inpe.br/mtc-m19/2011/06.10.18.36info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Teses e Dissertações do INPEinstname:Instituto Nacional de Pesquisas Espaciais (INPE)instacron:INPE2021-07-31T06:53:39Zoai:urlib.net:sid.inpe.br/mtc-m19/2011/06.10.18.36.22-0Biblioteca Digital de Teses e Dissertaçõeshttp://bibdigital.sid.inpe.br/PUBhttp://bibdigital.sid.inpe.br/col/iconet.com.br/banon/2003/11.21.21.08/doc/oai.cgiopendoar:32772021-07-31 06:53:40.065Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)false
dc.title.pt.fl_str_mv	Árvores de decisão aplicadas ao problema da separação estrela/galáxia
dc.title.alternative.en.fl_str_mv	Decision trees applied as star/galaxy separator
title	Árvores de decisão aplicadas ao problema da separação estrela/galáxia
spellingShingle	Árvores de decisão aplicadas ao problema da separação estrela/galáxia Eduardo Charles Vasconcellos
title_short	Árvores de decisão aplicadas ao problema da separação estrela/galáxia
title_full	Árvores de decisão aplicadas ao problema da separação estrela/galáxia
title_fullStr	Árvores de decisão aplicadas ao problema da separação estrela/galáxia
title_full_unstemmed	Árvores de decisão aplicadas ao problema da separação estrela/galáxia
title_sort	Árvores de decisão aplicadas ao problema da separação estrela/galáxia
author	Eduardo Charles Vasconcellos
author_facet	Eduardo Charles Vasconcellos
author_role	author
dc.contributor.advisor1.fl_str_mv	Haroldo Fraga de Campos Velho
dc.contributor.advisor2.fl_str_mv	Reinaldo Ramos de Carvalho
dc.contributor.referee1.fl_str_mv	Reinaldo Roberto Rosa
dc.contributor.referee2.fl_str_mv	Hugo Vicente Capelato
dc.contributor.referee3.fl_str_mv	João Luiz Kohl Moreira
dc.contributor.author.fl_str_mv	Eduardo Charles Vasconcellos
contributor_str_mv	Haroldo Fraga de Campos Velho Reinaldo Ramos de Carvalho Reinaldo Roberto Rosa Hugo Vicente Capelato João Luiz Kohl Moreira
dc.description.abstract.por.fl_txt_mv	Neste trabalho estudamos a eficiência de 13 algoritmos distintos para construção de árvores de decisão quando aplicados a tarefa de separar estrelas de galáxias. Esta separação é procedida com base nos dados fotométricos da sétima disponibilização de dados do ``Sloan Digital Sky Survey `` (SDSS-DR7). Cada um dos algoritmos testados está contido no software WEKA e é definido por um conjunto de parâmetros que, quando variados, podem modificar a árvore de decisão gerada. Nós exploramos extensivamente o espaço de parâmetros de cada algoritmo usando um conjunto de treinamento composto por 880.715 objetos do SDSS-DR7 que possuem espectroscopia disponível. Buscamos a configuração otimizada que permitiria a construção de uma árvore capaz de separar estrelas e galáxias com a maior precisão possível. A eficiência da separação estrelai galáxia é medida usando a função de completeza (fração de galáxias classificadas corretamente). Nossos resultados mostraram que o algoritmo FT (\textit {Functional Trees}) obteve os melhores resultados, com base na função de completeza, para dois intervalos de magnitude: 14 $\leq$ {\it r} $\leq$ 21 (85.2\%) e {\it r} $\geq$ 19 (82.1\%). Comparamos o desempenho da árvore gerada pelo FT com sua melhor configuração com separações obtidas pelo método paramétrico do SDSS, pelo 2DPHOT e por Ball et al. (2006). Essa comparação mostrou que nossa árvore gerada com o FT tem, para magnitudes no intervalo 14 $\leq$ {\it r} < 19, um desempenho similar aos demais métodos em termos de completeza, mas com uma contaminação (fração de estrelas classificadas como galáxias) muito inferior a todas menos a obtida por Ball et al, (2006). Para magnitudes fracas ({\it r} $\geq$ 19), nossa árvore é o único separador que obtém uma alta completeza (>80\%) e uma baixa contaminação (\~{} 2.5\%). Executamos também um experimento utilizando uma máquina de comitê composta por árvores de decisão treinadas com todos os 13 algoritmos do WEKA. Este experimento resultou em uma queda na função de completeza de \~{}5\% para magnitudes maiores que {\it 19.5} $^{m}$ quando comparada à completeza obtida pelo FT. Por outro lado, a amostra de galáxias gerada pelo comitê apresenta uma contaminação aproximadamente 6\% menor que a gerada pelo FT. Por fim examinamos o separador paramétrico do SDSS (psfMag - modelMag) com intuito de verificar se a linha divisória que separa os objetos poderia ser mais precisa. Identificamos que muitos pares de estrelas próximas estão sendo classificados erroneamente como galáxias, e sugerimos um novo valor de corte para melhorar a precisão do separador do SDSS. Por fim, aplicamos nossa árvore de decisão gerada com o FT para separar estrelas de galáxias em todo o conjunto de 69.545.326 objetos da amostra fotométrica do SDSS-DR7 com magnitudes no intervalo 14 $\leq$ {\it r} $\leq$ 21.
dc.description.abstract.eng.fl_txt_mv	We study the star / galaxy classification efficiency of 13 different decision tree algorithms applied to photometric objects in the Sloan Digital Sky Survey Data Release Seven (SDSS DR7). Each algorithm is defined by a set of parameters which, when varied, produce different final classification trees. We extensively explore the parameter space of each algorithm, using the set of 884, 126 SDSS objects with spectroscopic data as the training set. The efficiency of star-galaxy separation is measured using the completeness function. We find that the Functional Tree algorithm (FT) yields the best results as measured by the mean completeness in two magnitude intervals: 14 $\leq${\it r}$\leq$21 (85.2\%) and {\it r}$\geq$ 19 (82.1\%). We compare the performance of the tree generated with the optimal FT configuration to the classifications provided by the SDSS parametric classifier, 2DPHOT and Ball et alo (2006). We find that our FT classifier is comparable or better in completeness over the full magnitude range 15$\leq${\it r}$\leq$21, with much lower contamination than all but the Ball et alo (2006) classifier. At the faintest magnitudes ({\it r } > 19), our classifier is the only one that maintains high completeness (> 80\%) while simultaneously achieving low contamination (\~{} 2.5\%). We carried out an experiment with a decision tree committee machine designed with trees trained with all thirteen WEKA algorithms. The result was: for magnitudes greater then 20.5$^m$, in both a completeness \~{} 5\% and a contamination \~{}6\% lower than our pure FT tree. Finally we examine the SDSS parametric classifier (psfMag - modelMag) to see if the dividing line between stars and galaxies can be adjusted to improve the classifier. We find that currently, stars in close pairs are often misclassified as galaxies, and suggest a new cut to improve the classifier. Finally, we apply our FT classifier to separate stars from galaxies in the full set of 69,545,326 SDSS photometric objects in the magnitude range 14$\leq$ {\it r}$\leq$21.
description	Neste trabalho estudamos a eficiência de 13 algoritmos distintos para construção de árvores de decisão quando aplicados a tarefa de separar estrelas de galáxias. Esta separação é procedida com base nos dados fotométricos da sétima disponibilização de dados do ``Sloan Digital Sky Survey `` (SDSS-DR7). Cada um dos algoritmos testados está contido no software WEKA e é definido por um conjunto de parâmetros que, quando variados, podem modificar a árvore de decisão gerada. Nós exploramos extensivamente o espaço de parâmetros de cada algoritmo usando um conjunto de treinamento composto por 880.715 objetos do SDSS-DR7 que possuem espectroscopia disponível. Buscamos a configuração otimizada que permitiria a construção de uma árvore capaz de separar estrelas e galáxias com a maior precisão possível. A eficiência da separação estrelai galáxia é medida usando a função de completeza (fração de galáxias classificadas corretamente). Nossos resultados mostraram que o algoritmo FT (\textit {Functional Trees}) obteve os melhores resultados, com base na função de completeza, para dois intervalos de magnitude: 14 $\leq$ {\it r} $\leq$ 21 (85.2\%) e {\it r} $\geq$ 19 (82.1\%). Comparamos o desempenho da árvore gerada pelo FT com sua melhor configuração com separações obtidas pelo método paramétrico do SDSS, pelo 2DPHOT e por Ball et al. (2006). Essa comparação mostrou que nossa árvore gerada com o FT tem, para magnitudes no intervalo 14 $\leq$ {\it r} < 19, um desempenho similar aos demais métodos em termos de completeza, mas com uma contaminação (fração de estrelas classificadas como galáxias) muito inferior a todas menos a obtida por Ball et al, (2006). Para magnitudes fracas ({\it r} $\geq$ 19), nossa árvore é o único separador que obtém uma alta completeza (>80\%) e uma baixa contaminação (\~{} 2.5\%). Executamos também um experimento utilizando uma máquina de comitê composta por árvores de decisão treinadas com todos os 13 algoritmos do WEKA. Este experimento resultou em uma queda na função de completeza de \~{}5\% para magnitudes maiores que {\it 19.5} $^{m}$ quando comparada à completeza obtida pelo FT. Por outro lado, a amostra de galáxias gerada pelo comitê apresenta uma contaminação aproximadamente 6\% menor que a gerada pelo FT. Por fim examinamos o separador paramétrico do SDSS (psfMag - modelMag) com intuito de verificar se a linha divisória que separa os objetos poderia ser mais precisa. Identificamos que muitos pares de estrelas próximas estão sendo classificados erroneamente como galáxias, e sugerimos um novo valor de corte para melhorar a precisão do separador do SDSS. Por fim, aplicamos nossa árvore de decisão gerada com o FT para separar estrelas de galáxias em todo o conjunto de 69.545.326 objetos da amostra fotométrica do SDSS-DR7 com magnitudes no intervalo 14 $\leq$ {\it r} $\leq$ 21.
publishDate	2011
dc.date.issued.fl_str_mv	2011-04-15
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
status_str	publishedVersion
format	masterThesis
dc.identifier.uri.fl_str_mv	http://urlib.net/sid.inpe.br/mtc-m19/2011/06.10.18.36
url	http://urlib.net/sid.inpe.br/mtc-m19/2011/06.10.18.36
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Instituto Nacional de Pesquisas Espaciais
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação do INPE em Computação Aplicada
dc.publisher.initials.fl_str_mv	INPE
dc.publisher.country.fl_str_mv	BR
publisher.none.fl_str_mv	Instituto Nacional de Pesquisas Espaciais
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações do INPE instname:Instituto Nacional de Pesquisas Espaciais (INPE) instacron:INPE
reponame_str	Biblioteca Digital de Teses e Dissertações do INPE
collection	Biblioteca Digital de Teses e Dissertações do INPE
instname_str	Instituto Nacional de Pesquisas Espaciais (INPE)
instacron_str	INPE
institution	INPE
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)
repository.mail.fl_str_mv
publisher_program_txtF_mv	Programa de Pós-Graduação do INPE em Computação Aplicada
contributor_advisor1_txtF_mv	Haroldo Fraga de Campos Velho
_version_	1706809353190768640

Árvores de decisão aplicadas ao problema da separação estrela/galáxia

Registros relacionados