Árvores de decisão aplicadas ao problema da separação estrela/galáxia

Detalhes bibliográficos
Autor(a) principal: Eduardo Charles Vasconcellos
Data de Publicação: 2011
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações do INPE
Texto Completo: http://urlib.net/sid.inpe.br/mtc-m19/2011/06.10.18.36
Resumo: Neste trabalho estudamos a eficiência de 13 algoritmos distintos para construção de árvores de decisão quando aplicados a tarefa de separar estrelas de galáxias. Esta separação é procedida com base nos dados fotométricos da sétima disponibilização de dados do ``Sloan Digital Sky Survey `` (SDSS-DR7). Cada um dos algoritmos testados está contido no software WEKA e é definido por um conjunto de parâmetros que, quando variados, podem modificar a árvore de decisão gerada. Nós exploramos extensivamente o espaço de parâmetros de cada algoritmo usando um conjunto de treinamento composto por 880.715 objetos do SDSS-DR7 que possuem espectroscopia disponível. Buscamos a configuração otimizada que permitiria a construção de uma árvore capaz de separar estrelas e galáxias com a maior precisão possível. A eficiência da separação estrelai galáxia é medida usando a função de completeza (fração de galáxias classificadas corretamente). Nossos resultados mostraram que o algoritmo FT (\textit {Functional Trees}) obteve os melhores resultados, com base na função de completeza, para dois intervalos de magnitude: 14 $\leq$ {\it r} $\leq$ 21 (85.2\%) e {\it r} $\geq$ 19 (82.1\%). Comparamos o desempenho da árvore gerada pelo FT com sua melhor configuração com separações obtidas pelo método paramétrico do SDSS, pelo 2DPHOT e por Ball et al. (2006). Essa comparação mostrou que nossa árvore gerada com o FT tem, para magnitudes no intervalo 14 $\leq$ {\it r} < 19, um desempenho similar aos demais métodos em termos de completeza, mas com uma contaminação (fração de estrelas classificadas como galáxias) muito inferior a todas menos a obtida por Ball et al, (2006). Para magnitudes fracas ({\it r} $\geq$ 19), nossa árvore é o único separador que obtém uma alta completeza (>80\%) e uma baixa contaminação (\~{} 2.5\%). Executamos também um experimento utilizando uma máquina de comitê composta por árvores de decisão treinadas com todos os 13 algoritmos do WEKA. Este experimento resultou em uma queda na função de completeza de \~{}5\% para magnitudes maiores que {\it 19.5} $^{m}$ quando comparada à completeza obtida pelo FT. Por outro lado, a amostra de galáxias gerada pelo comitê apresenta uma contaminação aproximadamente 6\% menor que a gerada pelo FT. Por fim examinamos o separador paramétrico do SDSS (psfMag - modelMag) com intuito de verificar se a linha divisória que separa os objetos poderia ser mais precisa. Identificamos que muitos pares de estrelas próximas estão sendo classificados erroneamente como galáxias, e sugerimos um novo valor de corte para melhorar a precisão do separador do SDSS. Por fim, aplicamos nossa árvore de decisão gerada com o FT para separar estrelas de galáxias em todo o conjunto de 69.545.326 objetos da amostra fotométrica do SDSS-DR7 com magnitudes no intervalo 14 $\leq$ {\it r} $\leq$ 21.
id INPE_a27ea3930e3cd8e348b1baf1779addce
oai_identifier_str oai:urlib.net:sid.inpe.br/mtc-m19/2011/06.10.18.36.22-0
network_acronym_str INPE
network_name_str Biblioteca Digital de Teses e Dissertações do INPE
spelling info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisÁrvores de decisão aplicadas ao problema da separação estrela/galáxiaDecision trees applied as star/galaxy separator2011-04-15Haroldo Fraga de Campos VelhoReinaldo Ramos de CarvalhoReinaldo Roberto RosaHugo Vicente CapelatoJoão Luiz Kohl MoreiraEduardo Charles VasconcellosInstituto Nacional de Pesquisas EspaciaisPrograma de Pós-Graduação do INPE em Computação AplicadaINPEBRmineração de dadosárvores de decisãoSDSS datacatálogo estrela-galáxiadata miningdecision treesSDSS datestar-galaxy catalogNeste trabalho estudamos a eficiência de 13 algoritmos distintos para construção de árvores de decisão quando aplicados a tarefa de separar estrelas de galáxias. Esta separação é procedida com base nos dados fotométricos da sétima disponibilização de dados do ``Sloan Digital Sky Survey `` (SDSS-DR7). Cada um dos algoritmos testados está contido no software WEKA e é definido por um conjunto de parâmetros que, quando variados, podem modificar a árvore de decisão gerada. Nós exploramos extensivamente o espaço de parâmetros de cada algoritmo usando um conjunto de treinamento composto por 880.715 objetos do SDSS-DR7 que possuem espectroscopia disponível. Buscamos a configuração otimizada que permitiria a construção de uma árvore capaz de separar estrelas e galáxias com a maior precisão possível. A eficiência da separação estrelai galáxia é medida usando a função de completeza (fração de galáxias classificadas corretamente). Nossos resultados mostraram que o algoritmo FT (\textit {Functional Trees}) obteve os melhores resultados, com base na função de completeza, para dois intervalos de magnitude: 14 $\leq$ {\it r} $\leq$ 21 (85.2\%) e {\it r} $\geq$ 19 (82.1\%). Comparamos o desempenho da árvore gerada pelo FT com sua melhor configuração com separações obtidas pelo método paramétrico do SDSS, pelo 2DPHOT e por Ball et al. (2006). Essa comparação mostrou que nossa árvore gerada com o FT tem, para magnitudes no intervalo 14 $\leq$ {\it r} < 19, um desempenho similar aos demais métodos em termos de completeza, mas com uma contaminação (fração de estrelas classificadas como galáxias) muito inferior a todas menos a obtida por Ball et al, (2006). Para magnitudes fracas ({\it r} $\geq$ 19), nossa árvore é o único separador que obtém uma alta completeza (>80\%) e uma baixa contaminação (\~{} 2.5\%). Executamos também um experimento utilizando uma máquina de comitê composta por árvores de decisão treinadas com todos os 13 algoritmos do WEKA. Este experimento resultou em uma queda na função de completeza de \~{}5\% para magnitudes maiores que {\it 19.5} $^{m}$ quando comparada à completeza obtida pelo FT. Por outro lado, a amostra de galáxias gerada pelo comitê apresenta uma contaminação aproximadamente 6\% menor que a gerada pelo FT. Por fim examinamos o separador paramétrico do SDSS (psfMag - modelMag) com intuito de verificar se a linha divisória que separa os objetos poderia ser mais precisa. Identificamos que muitos pares de estrelas próximas estão sendo classificados erroneamente como galáxias, e sugerimos um novo valor de corte para melhorar a precisão do separador do SDSS. Por fim, aplicamos nossa árvore de decisão gerada com o FT para separar estrelas de galáxias em todo o conjunto de 69.545.326 objetos da amostra fotométrica do SDSS-DR7 com magnitudes no intervalo 14 $\leq$ {\it r} $\leq$ 21.We study the star / galaxy classification efficiency of 13 different decision tree algorithms applied to photometric objects in the Sloan Digital Sky Survey Data Release Seven (SDSS DR7). Each algorithm is defined by a set of parameters which, when varied, produce different final classification trees. We extensively explore the parameter space of each algorithm, using the set of 884, 126 SDSS objects with spectroscopic data as the training set. The efficiency of star-galaxy separation is measured using the completeness function. We find that the Functional Tree algorithm (FT) yields the best results as measured by the mean completeness in two magnitude intervals: 14 $\leq${\it r}$\leq$21 (85.2\%) and {\it r}$\geq$ 19 (82.1\%). We compare the performance of the tree generated with the optimal FT configuration to the classifications provided by the SDSS parametric classifier, 2DPHOT and Ball et alo (2006). We find that our FT classifier is comparable or better in completeness over the full magnitude range 15$\leq${\it r}$\leq$21, with much lower contamination than all but the Ball et alo (2006) classifier. At the faintest magnitudes ({\it r } > 19), our classifier is the only one that maintains high completeness (> 80\%) while simultaneously achieving low contamination (\~{} 2.5\%). We carried out an experiment with a decision tree committee machine designed with trees trained with all thirteen WEKA algorithms. The result was: for magnitudes greater then 20.5$^m$, in both a completeness \~{} 5\% and a contamination \~{}6\% lower than our pure FT tree. Finally we examine the SDSS parametric classifier (psfMag - modelMag) to see if the dividing line between stars and galaxies can be adjusted to improve the classifier. We find that currently, stars in close pairs are often misclassified as galaxies, and suggest a new cut to improve the classifier. Finally, we apply our FT classifier to separate stars from galaxies in the full set of 69,545,326 SDSS photometric objects in the magnitude range 14$\leq$ {\it r}$\leq$21.http://urlib.net/sid.inpe.br/mtc-m19/2011/06.10.18.36info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Teses e Dissertações do INPEinstname:Instituto Nacional de Pesquisas Espaciais (INPE)instacron:INPE2021-07-31T06:53:39Zoai:urlib.net:sid.inpe.br/mtc-m19/2011/06.10.18.36.22-0Biblioteca Digital de Teses e Dissertaçõeshttp://bibdigital.sid.inpe.br/PUBhttp://bibdigital.sid.inpe.br/col/iconet.com.br/banon/2003/11.21.21.08/doc/oai.cgiopendoar:32772021-07-31 06:53:40.065Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)false
dc.title.pt.fl_str_mv Árvores de decisão aplicadas ao problema da separação estrela/galáxia
dc.title.alternative.en.fl_str_mv Decision trees applied as star/galaxy separator
title Árvores de decisão aplicadas ao problema da separação estrela/galáxia
spellingShingle Árvores de decisão aplicadas ao problema da separação estrela/galáxia
Eduardo Charles Vasconcellos
title_short Árvores de decisão aplicadas ao problema da separação estrela/galáxia
title_full Árvores de decisão aplicadas ao problema da separação estrela/galáxia
title_fullStr Árvores de decisão aplicadas ao problema da separação estrela/galáxia
title_full_unstemmed Árvores de decisão aplicadas ao problema da separação estrela/galáxia
title_sort Árvores de decisão aplicadas ao problema da separação estrela/galáxia
author Eduardo Charles Vasconcellos
author_facet Eduardo Charles Vasconcellos
author_role author
dc.contributor.advisor1.fl_str_mv Haroldo Fraga de Campos Velho
dc.contributor.advisor2.fl_str_mv Reinaldo Ramos de Carvalho
dc.contributor.referee1.fl_str_mv Reinaldo Roberto Rosa
dc.contributor.referee2.fl_str_mv Hugo Vicente Capelato
dc.contributor.referee3.fl_str_mv João Luiz Kohl Moreira
dc.contributor.author.fl_str_mv Eduardo Charles Vasconcellos
contributor_str_mv Haroldo Fraga de Campos Velho
Reinaldo Ramos de Carvalho
Reinaldo Roberto Rosa
Hugo Vicente Capelato
João Luiz Kohl Moreira
dc.description.abstract.por.fl_txt_mv Neste trabalho estudamos a eficiência de 13 algoritmos distintos para construção de árvores de decisão quando aplicados a tarefa de separar estrelas de galáxias. Esta separação é procedida com base nos dados fotométricos da sétima disponibilização de dados do ``Sloan Digital Sky Survey `` (SDSS-DR7). Cada um dos algoritmos testados está contido no software WEKA e é definido por um conjunto de parâmetros que, quando variados, podem modificar a árvore de decisão gerada. Nós exploramos extensivamente o espaço de parâmetros de cada algoritmo usando um conjunto de treinamento composto por 880.715 objetos do SDSS-DR7 que possuem espectroscopia disponível. Buscamos a configuração otimizada que permitiria a construção de uma árvore capaz de separar estrelas e galáxias com a maior precisão possível. A eficiência da separação estrelai galáxia é medida usando a função de completeza (fração de galáxias classificadas corretamente). Nossos resultados mostraram que o algoritmo FT (\textit {Functional Trees}) obteve os melhores resultados, com base na função de completeza, para dois intervalos de magnitude: 14 $\leq$ {\it r} $\leq$ 21 (85.2\%) e {\it r} $\geq$ 19 (82.1\%). Comparamos o desempenho da árvore gerada pelo FT com sua melhor configuração com separações obtidas pelo método paramétrico do SDSS, pelo 2DPHOT e por Ball et al. (2006). Essa comparação mostrou que nossa árvore gerada com o FT tem, para magnitudes no intervalo 14 $\leq$ {\it r} < 19, um desempenho similar aos demais métodos em termos de completeza, mas com uma contaminação (fração de estrelas classificadas como galáxias) muito inferior a todas menos a obtida por Ball et al, (2006). Para magnitudes fracas ({\it r} $\geq$ 19), nossa árvore é o único separador que obtém uma alta completeza (>80\%) e uma baixa contaminação (\~{} 2.5\%). Executamos também um experimento utilizando uma máquina de comitê composta por árvores de decisão treinadas com todos os 13 algoritmos do WEKA. Este experimento resultou em uma queda na função de completeza de \~{}5\% para magnitudes maiores que {\it 19.5} $^{m}$ quando comparada à completeza obtida pelo FT. Por outro lado, a amostra de galáxias gerada pelo comitê apresenta uma contaminação aproximadamente 6\% menor que a gerada pelo FT. Por fim examinamos o separador paramétrico do SDSS (psfMag - modelMag) com intuito de verificar se a linha divisória que separa os objetos poderia ser mais precisa. Identificamos que muitos pares de estrelas próximas estão sendo classificados erroneamente como galáxias, e sugerimos um novo valor de corte para melhorar a precisão do separador do SDSS. Por fim, aplicamos nossa árvore de decisão gerada com o FT para separar estrelas de galáxias em todo o conjunto de 69.545.326 objetos da amostra fotométrica do SDSS-DR7 com magnitudes no intervalo 14 $\leq$ {\it r} $\leq$ 21.
dc.description.abstract.eng.fl_txt_mv We study the star / galaxy classification efficiency of 13 different decision tree algorithms applied to photometric objects in the Sloan Digital Sky Survey Data Release Seven (SDSS DR7). Each algorithm is defined by a set of parameters which, when varied, produce different final classification trees. We extensively explore the parameter space of each algorithm, using the set of 884, 126 SDSS objects with spectroscopic data as the training set. The efficiency of star-galaxy separation is measured using the completeness function. We find that the Functional Tree algorithm (FT) yields the best results as measured by the mean completeness in two magnitude intervals: 14 $\leq${\it r}$\leq$21 (85.2\%) and {\it r}$\geq$ 19 (82.1\%). We compare the performance of the tree generated with the optimal FT configuration to the classifications provided by the SDSS parametric classifier, 2DPHOT and Ball et alo (2006). We find that our FT classifier is comparable or better in completeness over the full magnitude range 15$\leq${\it r}$\leq$21, with much lower contamination than all but the Ball et alo (2006) classifier. At the faintest magnitudes ({\it r } > 19), our classifier is the only one that maintains high completeness (> 80\%) while simultaneously achieving low contamination (\~{} 2.5\%). We carried out an experiment with a decision tree committee machine designed with trees trained with all thirteen WEKA algorithms. The result was: for magnitudes greater then 20.5$^m$, in both a completeness \~{} 5\% and a contamination \~{}6\% lower than our pure FT tree. Finally we examine the SDSS parametric classifier (psfMag - modelMag) to see if the dividing line between stars and galaxies can be adjusted to improve the classifier. We find that currently, stars in close pairs are often misclassified as galaxies, and suggest a new cut to improve the classifier. Finally, we apply our FT classifier to separate stars from galaxies in the full set of 69,545,326 SDSS photometric objects in the magnitude range 14$\leq$ {\it r}$\leq$21.
description Neste trabalho estudamos a eficiência de 13 algoritmos distintos para construção de árvores de decisão quando aplicados a tarefa de separar estrelas de galáxias. Esta separação é procedida com base nos dados fotométricos da sétima disponibilização de dados do ``Sloan Digital Sky Survey `` (SDSS-DR7). Cada um dos algoritmos testados está contido no software WEKA e é definido por um conjunto de parâmetros que, quando variados, podem modificar a árvore de decisão gerada. Nós exploramos extensivamente o espaço de parâmetros de cada algoritmo usando um conjunto de treinamento composto por 880.715 objetos do SDSS-DR7 que possuem espectroscopia disponível. Buscamos a configuração otimizada que permitiria a construção de uma árvore capaz de separar estrelas e galáxias com a maior precisão possível. A eficiência da separação estrelai galáxia é medida usando a função de completeza (fração de galáxias classificadas corretamente). Nossos resultados mostraram que o algoritmo FT (\textit {Functional Trees}) obteve os melhores resultados, com base na função de completeza, para dois intervalos de magnitude: 14 $\leq$ {\it r} $\leq$ 21 (85.2\%) e {\it r} $\geq$ 19 (82.1\%). Comparamos o desempenho da árvore gerada pelo FT com sua melhor configuração com separações obtidas pelo método paramétrico do SDSS, pelo 2DPHOT e por Ball et al. (2006). Essa comparação mostrou que nossa árvore gerada com o FT tem, para magnitudes no intervalo 14 $\leq$ {\it r} < 19, um desempenho similar aos demais métodos em termos de completeza, mas com uma contaminação (fração de estrelas classificadas como galáxias) muito inferior a todas menos a obtida por Ball et al, (2006). Para magnitudes fracas ({\it r} $\geq$ 19), nossa árvore é o único separador que obtém uma alta completeza (>80\%) e uma baixa contaminação (\~{} 2.5\%). Executamos também um experimento utilizando uma máquina de comitê composta por árvores de decisão treinadas com todos os 13 algoritmos do WEKA. Este experimento resultou em uma queda na função de completeza de \~{}5\% para magnitudes maiores que {\it 19.5} $^{m}$ quando comparada à completeza obtida pelo FT. Por outro lado, a amostra de galáxias gerada pelo comitê apresenta uma contaminação aproximadamente 6\% menor que a gerada pelo FT. Por fim examinamos o separador paramétrico do SDSS (psfMag - modelMag) com intuito de verificar se a linha divisória que separa os objetos poderia ser mais precisa. Identificamos que muitos pares de estrelas próximas estão sendo classificados erroneamente como galáxias, e sugerimos um novo valor de corte para melhorar a precisão do separador do SDSS. Por fim, aplicamos nossa árvore de decisão gerada com o FT para separar estrelas de galáxias em todo o conjunto de 69.545.326 objetos da amostra fotométrica do SDSS-DR7 com magnitudes no intervalo 14 $\leq$ {\it r} $\leq$ 21.
publishDate 2011
dc.date.issued.fl_str_mv 2011-04-15
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
status_str publishedVersion
format masterThesis
dc.identifier.uri.fl_str_mv http://urlib.net/sid.inpe.br/mtc-m19/2011/06.10.18.36
url http://urlib.net/sid.inpe.br/mtc-m19/2011/06.10.18.36
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Instituto Nacional de Pesquisas Espaciais
dc.publisher.program.fl_str_mv Programa de Pós-Graduação do INPE em Computação Aplicada
dc.publisher.initials.fl_str_mv INPE
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv Instituto Nacional de Pesquisas Espaciais
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do INPE
instname:Instituto Nacional de Pesquisas Espaciais (INPE)
instacron:INPE
reponame_str Biblioteca Digital de Teses e Dissertações do INPE
collection Biblioteca Digital de Teses e Dissertações do INPE
instname_str Instituto Nacional de Pesquisas Espaciais (INPE)
instacron_str INPE
institution INPE
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)
repository.mail.fl_str_mv
publisher_program_txtF_mv Programa de Pós-Graduação do INPE em Computação Aplicada
contributor_advisor1_txtF_mv Haroldo Fraga de Campos Velho
_version_ 1706809353190768640