Exploration of unsupervised machine learning methods to study galaxy clustering

Detalhes bibliográficos
Autor(a) principal: Carvalho, Ana Sofia Chagas
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/41402
Resumo: Tese de mestrado, Física (Astrofísica e Cosmologia), Universidade de Lisboa, Faculdade de Ciências, 2019
id RCAP_704362cab03c6d59c8ba66b7f409ee89
oai_identifier_str oai:repositorio.ul.pt:10451/41402
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Exploration of unsupervised machine learning methods to study galaxy clusteringMétodos: análise de dadosMétodos: estatísticosGaláxias: enxames: geralTeses de mestrado - 2019Domínio/Área Científica::Ciências Naturais::Ciências FísicasTese de mestrado, Física (Astrofísica e Cosmologia), Universidade de Lisboa, Faculdade de Ciências, 2019Enxames de galáxias são objetos essenciais para a compreensão da evolução de galáxias, mas também são fundamentais para questões sobre o setor escuro do universo. Todavia, o estudo de enxames assenta na correta identificação das galáxias que lhe pertencem. A missão espacial Euclid tem como objetivo explorar o setor escuro do universo, identificando assinaturas da taxa de expansão do universo e da evolução de estruturas cósmicas, observando o universo até redshift z =2. Para isso, vão ser estudados e medidos efeitos de lentes gravitacionais em galáxias e também propriedades de agrupamentos de galáxias. No entanto, a quantidade de dados que a missão Euclid irá coletar (e também os já coletados por outras missões cosmológicas como SDSS, DES, LSST, etc.) é demasiado grande, impedindo a aquisição de informação espectroscópica detalhada para todas as galáxias detetadas que é necessária para identificar as galáxias membro de enxames e a sua distribuição, que são essenciais para derivar as propriedades destes. Portanto, o desenvolvimento de técnicas de análise de dados que permite o estudo de enxames directamente de dados astrométricos e fotométricos, usando o mínimo de informação espectroscópica possível, tem um grande valor para a extracção de informação cosmológica. Este projecto tem como objectivo o estudo de novos métodos para a identificação de membros de enxames de galáxias de forma não supervisionada, sendo que métodos já existentes serão também adotados e modificados. O primeiro capítulo introduz a noção de aglomerados de galáxias, a sua definição inicial (mais do que 50 membros ligados gravitacionalmente, dentro de um diâmetro de cerca 1.5h−1 Mpc ou maior). Depois, são referidas algumas propriedades observáveis (no ótico, raios-X, etc), como a luminosidade, a riqueza, cor, contagem de membros, entre outras, havendo uma especial atenção para a luminosidade nos raios-x e para a luminosidade observada devido ao efeito Sunyaev-Zel’dovich. Estas propriedades são estudadas e usadas para o desenvolvimento, confirmação e comparação de aspectos teóricos de cosmologia, em particular, sobre a matéria escura. Esta matéria escura foi primeiro deduzida por Zwicky in 1933. Tendo em conta modelos dinâmicos e teoria Virial, estimou-se que a massa total de enxames de galáxias é bastante maior da estimada quando se estuda a luz proveniente de objectos luminosos (a maioria sendo estrelas e gás) que constituem as galáxias de um enxame. Esta última ée cerca de 3% a 5% da massa total estimada a partir dos modelos dinâmicos. Ao excesso dessa massa deu-se o nome de matéria escura e a partir daí a evidência da existência de um tipo de massa que não é observada com a tecnologia de hoje constituiu um desafio para a cosmologia. Enxames de galáxias não constituem apenas sondas para a matéria escura, mas para estudar o desenvolvimento da Estrutura de Grande Escala, estrutura filamental (de matéria, como galáxias, grupos e enxames) que resultou de perturbações do campo de inflação que foram amplificadas pela gravidade, e também como sondas para estudar a energia escura e teorias de gravidade modificada. Existem diversas missões e sondas que procuram observar e/ou detectar enxames de galáxias precisamente para estudar o setor escuro do universo. É o caso da missão Planck, que esteve activa durante 30 meses. Com a missão Planck foi possível combinar enxames de galáxias num catálogo, o PLANCKSZ2 (Planck 2nd Sunyaev-Zeldovich Source), do DES (Dark Energy Survey) cujo objectivo científico é estudar a origem do universo acelerado e também da matéria escura, do SDSS (Sloan Digital Sky Survey) com a qual foi possível construir diversos catálogos, como o eBOSS, que contem quasares e galáxias. As sondas que operam nos raios-x (ROSAT e XMM-Newton) são também bastante importantes para a detecção de enxames de galáxias, uma vez que o gás contido nestes objectos (o intracluster medium ou ICM) emite radiação devido ao efeito de bremmstrahlung. Neste capítulo são também mencionados métodos de identificação de enxames de galáxias, virados para sondas no ótico, como é o caso da futura missão Euclid. Neste capítulo são também brevemente explicados alguns conceitos necessários à elaboração do trabalho mencionado nesta dissertação, como os conceitos relacionados com Machine Learning e algumas ferramentas matemáticas e estatísticas. No segundo capítulo é explicado o método utilizado nesta dissertação, o método UPMASK. Este é um método não supervisionado e desenhado para utilizar a mínima informação possível sobre os dados fotométricos e astrométricos, sem realizar nenhuma suposição dependente de modelos dos objectos que se est´a a estudar. Para além de utilizar o UPMASK, tal como é, em enxames de galáxias, foram também realizadas modificações a este método com o objectivo de o aprimorar - particularmente no seu tempo de execução. Para esse efeito, são usadas ferramentas como a Tesselação de Voronoi e o teste estatístico Anderson-Darling, e funções de regressão. De seguida, no terceiro capítulo, são aplicadas todas as versões modificadas do método UPMASK, bem como a versão original, a dados simulados que foram gerados tendo em conta também outras simulações para a Estrutura de Grande Escala. É definida uma pureza e completude e com estes parâmetros, vão ser realizados estudos dos parâmetros internos ao método, bem como estudos acerca do seu tempo de execução. Neste capítulo são também estudadas as diferenças entre usar um sistema de filtros idêntico ao do DES e um sistema de filtros idêntico ao do Euclid e para que redshifts de enxames de galáxias a utilização deste filtros é óptima. No quarto capítulo o método UPMASK e todas as suas versões são aplicadas ao enxame de galáxias mais estudado, o enxame Coma. Este enxame é um dos mais famosos, pois é numeroso um dos mais próximos. Foi também com este enxame que Zwicky demonstrou que existe uma fracção de massa dinâmica que não emite luz. Retiraram-se os objectos do catálogo Pan-STARRS (Panoramic Survey Telescope and Rapid Response System) dentro de um campo que se sabe em que o enxame Cluster está situado. Depois de separar estrelas de galáxias, foi então aplicado o método aos dados, desta vez sem informação sobre pureza e completude, uma vez que o catálogo utilizado não fornece informações sobre os membros pertencentes. Assim desta forma no quinto capítulo, aplicou-se novamente o método, mas desta vez com o objectivo de reencontrar os enxames de galáxia que foram identificados pela sonda Planck (utilizando o catálogo PLANCKSZ2), utilizando o catálogo Pan-STARRS. Assim, para cada enxame, foram retirados objectos num campo que é compatível com as coordenadas fornecidas pelo PLANCKSZ2, e separadas também as estrelas das galáxias, utilizando a mesma metodologia adoptada no capítulo anterior. Executando os testes, teve-se especial atenção aos enxames que não foram confirmados por uma fonte externa ao Planck - pois as propriedades destes “novos enxames” poderão contribuir para a determinação e a aprimoração de ou outros avanços na área da cosmologia. Finalmente, no sexto capítulo apresento os resultados e conclusões obtidos ao longo deste trabalho de dissertação, a importância que este trabalho tem para o conhecimento científico, pois fornece uma ferramenta que procura tornar eficiente a selecção e análise de enxames de galáxias, numa era de “Big Science”, onde é humanamente impossível todos os dados serem analisados por mãos humanas. Neste capítulo procura-se também discutir oportunidades para trabalho futuro, desde a implementação de possíveis ferramentas mais simples e computacionalmente mais rápidas até à possível observação dos enxames de galáxia contidos no PLANCKSZ2, sem uma validação externa, mas que foram identificados pelo UPMASK.Galaxy clusters are essential objects to understand galaxy evolution. Moreover, they are fundamental in the quest to unravel the Dark Sector of the Universe. Nevertheless, their study relies on the correct identification of whether galaxies are members of the cluster or not. The space survey Euclid, has as one of its goals to probe the Dark Sector of the Universe by detecting signatures of the expansion rate of the Universe and the growth of cosmic structures. For this purpose two main probes will be used: gravitational lensing effects on galaxies and the properties of galaxy clusters. However, the amount of data that will be collected by Euclid and by existing and future large cosmological surveys as SDSS, DES, LSST, etc., is big enough to prevent gathering detailed spectroscopic information for all the detected galaxies, and thus to obtain the membership that is essential to derive the properties of these clusters. Accordingly, the development of data analysis techniques that enable the study of clusters directly from the astrometric and photometric data, using a minimum amount of spectroscopy, is highly valuable for extraction of cosmological information in this era of large surveys and precision cosmology. This project has the study of new methods of unsupervised membership assignment in galaxy clusters as its center, while also adopting and modifying existing models. I studied and modified the UPMASK method, whose development is described in this dissertation. This method and its modifications were validated using simulated data of MICECAT, and an extensive study of parameters of the test was done. Later, UPMASK was applied to the Coma Cluster, using observations and measurements from the Pan-STARRS survey catalogue. Finally, the method was used to rediscover the galaxy clusters of the PLANCKSZ2 catalogue within the Pan-STARRS survey catalogue - taking particular attention to the ones that were not validated by an external source to the PLANCKSZ2.Silva, António José Cunha daMartins, Alberto Garcez de Oliveira KroneRepositório da Universidade de LisboaCarvalho, Ana Sofia Chagas2020-01-25T16:38:32Z201920192019-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/41402TID:202385051enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:40:49Zoai:repositorio.ul.pt:10451/41402Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:54:40.528975Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Exploration of unsupervised machine learning methods to study galaxy clustering
title Exploration of unsupervised machine learning methods to study galaxy clustering
spellingShingle Exploration of unsupervised machine learning methods to study galaxy clustering
Carvalho, Ana Sofia Chagas
Métodos: análise de dados
Métodos: estatísticos
Galáxias: enxames: geral
Teses de mestrado - 2019
Domínio/Área Científica::Ciências Naturais::Ciências Físicas
title_short Exploration of unsupervised machine learning methods to study galaxy clustering
title_full Exploration of unsupervised machine learning methods to study galaxy clustering
title_fullStr Exploration of unsupervised machine learning methods to study galaxy clustering
title_full_unstemmed Exploration of unsupervised machine learning methods to study galaxy clustering
title_sort Exploration of unsupervised machine learning methods to study galaxy clustering
author Carvalho, Ana Sofia Chagas
author_facet Carvalho, Ana Sofia Chagas
author_role author
dc.contributor.none.fl_str_mv Silva, António José Cunha da
Martins, Alberto Garcez de Oliveira Krone
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Carvalho, Ana Sofia Chagas
dc.subject.por.fl_str_mv Métodos: análise de dados
Métodos: estatísticos
Galáxias: enxames: geral
Teses de mestrado - 2019
Domínio/Área Científica::Ciências Naturais::Ciências Físicas
topic Métodos: análise de dados
Métodos: estatísticos
Galáxias: enxames: geral
Teses de mestrado - 2019
Domínio/Área Científica::Ciências Naturais::Ciências Físicas
description Tese de mestrado, Física (Astrofísica e Cosmologia), Universidade de Lisboa, Faculdade de Ciências, 2019
publishDate 2019
dc.date.none.fl_str_mv 2019
2019
2019-01-01T00:00:00Z
2020-01-25T16:38:32Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/41402
TID:202385051
url http://hdl.handle.net/10451/41402
identifier_str_mv TID:202385051
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134486389063680