Um processo otimizado de produção de mapas da radiação cósmica de fundo em microondas

Detalhes bibliográficos
Autor(a) principal: José Oscar Fernandes
Data de Publicação: 2003
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações do INPE
Texto Completo: http://urlib.net/sid.inpe.br/jeferson/2003/05.15.11.23
Resumo: Este trabalho propõe uma estratégia de otimização de desempenho para o software de produção de mapas da Radiação Cósmica de Fundo em Microondas (RCFM), onde se busca a minimização do tempo de processamento utilizando uma arquitetura paralela de memória distribuída. Inicialmente, um código desenvolvido em Fortran foi portado para Fortran 90 e High Performance Fortran (HPF), em uma implementação baseada em paralelismo de dados, sendo executado em uma arquitetura paralela de memória compartilhada. O código foi convenientemente dividido em trechos e foi instrumentado para prover informações dos tempos de execução de cada trecho. A análise dos tempos de execução mostrou um "gargalo" de desempenho nas rotinas que implementam a convolução de matrizes, o que é feito por um algoritmo Fast Fourier Transform (FFT) bidimensional. Esta rotina é a maior consumidora de tempo de CPU devido à distribuição de dados entre os processadores. No algoritmo FFT, a matriz de convolução deve ser transposta. Tipicamente, um bloco de colunas desta matriz é atribuído a cada processador, mas no cálculo da matriz transposta, blocos de linhas da mesma matriz devem ser lidos. Isto é claramente, uma operação pouco eficiente quando se utiliza o HPF. A rotina FFT foi portada para Message Passing Interface (MPI), combinando paralelismo de dados e tarefas. A arquitetura paralela de memória distribuída utilizada é um beowulf cluster de 16 nós, sendo cada nó um computador Linux IA-32. O uso de MPI para melhorar o desempenho do HPF foi proposto por Foster et al. em ?Double standards: bringing task parallelism to HPF via the Message Passing Interface? e foi utilizado em uma rotina 2D-FFT com o objetivo de proporcionar uma comunicação mais eficiente entre os nós no cálculo de uma matriz transposta. Este trabalho apresenta as avaliações do método utilizado, que pode ser aplicado a outras rotinas consumidoras de tempo de CPU. A análise dos tempos de execução fornece indícios para se conseguir um melhor balanceamento de carga e menor tempo de comunicação entre os nós.
id INPE_d86397e5d9f1ede84f3a8cebb7fcb71c
oai_identifier_str oai:urlib.net:sid.inpe.br/jeferson/2003/05.15.11.23.56-0
network_acronym_str INPE
network_name_str Biblioteca Digital de Teses e Dissertações do INPE
spelling info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUm processo otimizado de produção de mapas da radiação cósmica de fundo em microondasAn optimized process of production of cosmic microwave backgroud radiation maps2003-03-27Airam Jônatas PretoStephan StephanyCarlos Alexandre WuenscheNewton de Figueiredo FilhoJosé Oscar FernandesInstituto Nacional de Pesquisas Espaciais (INPE)Programa de Pós-Graduação do INPE em Computação AplicadaINPEBRradiação cósmica de fundo em microondas (RCFM)sistemas de processamento paraleloredução de dadosFORTRAN (linguagem de programação)programação de sistemas computacionaisEste trabalho propõe uma estratégia de otimização de desempenho para o software de produção de mapas da Radiação Cósmica de Fundo em Microondas (RCFM), onde se busca a minimização do tempo de processamento utilizando uma arquitetura paralela de memória distribuída. Inicialmente, um código desenvolvido em Fortran foi portado para Fortran 90 e High Performance Fortran (HPF), em uma implementação baseada em paralelismo de dados, sendo executado em uma arquitetura paralela de memória compartilhada. O código foi convenientemente dividido em trechos e foi instrumentado para prover informações dos tempos de execução de cada trecho. A análise dos tempos de execução mostrou um "gargalo" de desempenho nas rotinas que implementam a convolução de matrizes, o que é feito por um algoritmo Fast Fourier Transform (FFT) bidimensional. Esta rotina é a maior consumidora de tempo de CPU devido à distribuição de dados entre os processadores. No algoritmo FFT, a matriz de convolução deve ser transposta. Tipicamente, um bloco de colunas desta matriz é atribuído a cada processador, mas no cálculo da matriz transposta, blocos de linhas da mesma matriz devem ser lidos. Isto é claramente, uma operação pouco eficiente quando se utiliza o HPF. A rotina FFT foi portada para Message Passing Interface (MPI), combinando paralelismo de dados e tarefas. A arquitetura paralela de memória distribuída utilizada é um beowulf cluster de 16 nós, sendo cada nó um computador Linux IA-32. O uso de MPI para melhorar o desempenho do HPF foi proposto por Foster et al. em ?Double standards: bringing task parallelism to HPF via the Message Passing Interface? e foi utilizado em uma rotina 2D-FFT com o objetivo de proporcionar uma comunicação mais eficiente entre os nós no cálculo de uma matriz transposta. Este trabalho apresenta as avaliações do método utilizado, que pode ser aplicado a outras rotinas consumidoras de tempo de CPU. A análise dos tempos de execução fornece indícios para se conseguir um melhor balanceamento de carga e menor tempo de comunicação entre os nós.The current work describes the optimization and parallelization of the software for the production of Cosmic Microwave Background (CMB) radiation maps in a distributed memory architecture. Initially, the Fortran code was ported to Fortran 90 and to High Performance Fortran (HPF) and run in a SMP (Shared Memory Processor) machine. In order to provide timing information, calls to operating system timing routines were imbedded in the code. Analysis of timing information shows performance bottlenecks in the matrix convolution routine, which is done by a two-dimensional Fast Fourier Transform (FFT) algorithm. This is a time consuming routine due to data distribution among processors. Due to the FFT algorithm the convolution matrix has to be transposed. Typically, a block of columns of this matrix is assigned to each processor but, in order to calculate the transposed matrix, block of lines of the same matrix must be read. This was clearly an inefficient issue running HPF on that machine. The FFT routine was ported to Message Passing Interface (MPI) mixing task and data parallelism. The used distributed memory machine is a Beowulf cluster, each node being a Linux IA-32 computer. The use of MPI to enhance HPF performance was already proposed by Foster et al. in ?Double standards: bringing task parallelism to HPF via the Message Passing Interface? and was used in the 2D FFT routine in order to provide a more efficient communication between nodes in the calculation of the transposed matrix. This work presents the evaluations of the used method, and the same approach could be used in other time consuming routines of the CMB code. The timing analysis provides clues to enhance load balancing and data communication between nodes.http://urlib.net/sid.inpe.br/jeferson/2003/05.15.11.23info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Teses e Dissertações do INPEinstname:Instituto Nacional de Pesquisas Espaciais (INPE)instacron:INPE2021-07-31T06:52:50Zoai:urlib.net:sid.inpe.br/jeferson/2003/05.15.11.23.56-0Biblioteca Digital de Teses e Dissertaçõeshttp://bibdigital.sid.inpe.br/PUBhttp://bibdigital.sid.inpe.br/col/iconet.com.br/banon/2003/11.21.21.08/doc/oai.cgiopendoar:32772021-07-31 06:52:51.104Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)false
dc.title.pt.fl_str_mv Um processo otimizado de produção de mapas da radiação cósmica de fundo em microondas
dc.title.alternative.en.fl_str_mv An optimized process of production of cosmic microwave backgroud radiation maps
title Um processo otimizado de produção de mapas da radiação cósmica de fundo em microondas
spellingShingle Um processo otimizado de produção de mapas da radiação cósmica de fundo em microondas
José Oscar Fernandes
title_short Um processo otimizado de produção de mapas da radiação cósmica de fundo em microondas
title_full Um processo otimizado de produção de mapas da radiação cósmica de fundo em microondas
title_fullStr Um processo otimizado de produção de mapas da radiação cósmica de fundo em microondas
title_full_unstemmed Um processo otimizado de produção de mapas da radiação cósmica de fundo em microondas
title_sort Um processo otimizado de produção de mapas da radiação cósmica de fundo em microondas
author José Oscar Fernandes
author_facet José Oscar Fernandes
author_role author
dc.contributor.advisor1.fl_str_mv Airam Jônatas Preto
dc.contributor.advisor2.fl_str_mv Stephan Stephany
dc.contributor.referee1.fl_str_mv Carlos Alexandre Wuensche
dc.contributor.referee2.fl_str_mv Newton de Figueiredo Filho
dc.contributor.author.fl_str_mv José Oscar Fernandes
contributor_str_mv Airam Jônatas Preto
Stephan Stephany
Carlos Alexandre Wuensche
Newton de Figueiredo Filho
dc.description.abstract.por.fl_txt_mv Este trabalho propõe uma estratégia de otimização de desempenho para o software de produção de mapas da Radiação Cósmica de Fundo em Microondas (RCFM), onde se busca a minimização do tempo de processamento utilizando uma arquitetura paralela de memória distribuída. Inicialmente, um código desenvolvido em Fortran foi portado para Fortran 90 e High Performance Fortran (HPF), em uma implementação baseada em paralelismo de dados, sendo executado em uma arquitetura paralela de memória compartilhada. O código foi convenientemente dividido em trechos e foi instrumentado para prover informações dos tempos de execução de cada trecho. A análise dos tempos de execução mostrou um "gargalo" de desempenho nas rotinas que implementam a convolução de matrizes, o que é feito por um algoritmo Fast Fourier Transform (FFT) bidimensional. Esta rotina é a maior consumidora de tempo de CPU devido à distribuição de dados entre os processadores. No algoritmo FFT, a matriz de convolução deve ser transposta. Tipicamente, um bloco de colunas desta matriz é atribuído a cada processador, mas no cálculo da matriz transposta, blocos de linhas da mesma matriz devem ser lidos. Isto é claramente, uma operação pouco eficiente quando se utiliza o HPF. A rotina FFT foi portada para Message Passing Interface (MPI), combinando paralelismo de dados e tarefas. A arquitetura paralela de memória distribuída utilizada é um beowulf cluster de 16 nós, sendo cada nó um computador Linux IA-32. O uso de MPI para melhorar o desempenho do HPF foi proposto por Foster et al. em ?Double standards: bringing task parallelism to HPF via the Message Passing Interface? e foi utilizado em uma rotina 2D-FFT com o objetivo de proporcionar uma comunicação mais eficiente entre os nós no cálculo de uma matriz transposta. Este trabalho apresenta as avaliações do método utilizado, que pode ser aplicado a outras rotinas consumidoras de tempo de CPU. A análise dos tempos de execução fornece indícios para se conseguir um melhor balanceamento de carga e menor tempo de comunicação entre os nós.
dc.description.abstract.eng.fl_txt_mv The current work describes the optimization and parallelization of the software for the production of Cosmic Microwave Background (CMB) radiation maps in a distributed memory architecture. Initially, the Fortran code was ported to Fortran 90 and to High Performance Fortran (HPF) and run in a SMP (Shared Memory Processor) machine. In order to provide timing information, calls to operating system timing routines were imbedded in the code. Analysis of timing information shows performance bottlenecks in the matrix convolution routine, which is done by a two-dimensional Fast Fourier Transform (FFT) algorithm. This is a time consuming routine due to data distribution among processors. Due to the FFT algorithm the convolution matrix has to be transposed. Typically, a block of columns of this matrix is assigned to each processor but, in order to calculate the transposed matrix, block of lines of the same matrix must be read. This was clearly an inefficient issue running HPF on that machine. The FFT routine was ported to Message Passing Interface (MPI) mixing task and data parallelism. The used distributed memory machine is a Beowulf cluster, each node being a Linux IA-32 computer. The use of MPI to enhance HPF performance was already proposed by Foster et al. in ?Double standards: bringing task parallelism to HPF via the Message Passing Interface? and was used in the 2D FFT routine in order to provide a more efficient communication between nodes in the calculation of the transposed matrix. This work presents the evaluations of the used method, and the same approach could be used in other time consuming routines of the CMB code. The timing analysis provides clues to enhance load balancing and data communication between nodes.
description Este trabalho propõe uma estratégia de otimização de desempenho para o software de produção de mapas da Radiação Cósmica de Fundo em Microondas (RCFM), onde se busca a minimização do tempo de processamento utilizando uma arquitetura paralela de memória distribuída. Inicialmente, um código desenvolvido em Fortran foi portado para Fortran 90 e High Performance Fortran (HPF), em uma implementação baseada em paralelismo de dados, sendo executado em uma arquitetura paralela de memória compartilhada. O código foi convenientemente dividido em trechos e foi instrumentado para prover informações dos tempos de execução de cada trecho. A análise dos tempos de execução mostrou um "gargalo" de desempenho nas rotinas que implementam a convolução de matrizes, o que é feito por um algoritmo Fast Fourier Transform (FFT) bidimensional. Esta rotina é a maior consumidora de tempo de CPU devido à distribuição de dados entre os processadores. No algoritmo FFT, a matriz de convolução deve ser transposta. Tipicamente, um bloco de colunas desta matriz é atribuído a cada processador, mas no cálculo da matriz transposta, blocos de linhas da mesma matriz devem ser lidos. Isto é claramente, uma operação pouco eficiente quando se utiliza o HPF. A rotina FFT foi portada para Message Passing Interface (MPI), combinando paralelismo de dados e tarefas. A arquitetura paralela de memória distribuída utilizada é um beowulf cluster de 16 nós, sendo cada nó um computador Linux IA-32. O uso de MPI para melhorar o desempenho do HPF foi proposto por Foster et al. em ?Double standards: bringing task parallelism to HPF via the Message Passing Interface? e foi utilizado em uma rotina 2D-FFT com o objetivo de proporcionar uma comunicação mais eficiente entre os nós no cálculo de uma matriz transposta. Este trabalho apresenta as avaliações do método utilizado, que pode ser aplicado a outras rotinas consumidoras de tempo de CPU. A análise dos tempos de execução fornece indícios para se conseguir um melhor balanceamento de carga e menor tempo de comunicação entre os nós.
publishDate 2003
dc.date.issued.fl_str_mv 2003-03-27
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
status_str publishedVersion
format masterThesis
dc.identifier.uri.fl_str_mv http://urlib.net/sid.inpe.br/jeferson/2003/05.15.11.23
url http://urlib.net/sid.inpe.br/jeferson/2003/05.15.11.23
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Instituto Nacional de Pesquisas Espaciais (INPE)
dc.publisher.program.fl_str_mv Programa de Pós-Graduação do INPE em Computação Aplicada
dc.publisher.initials.fl_str_mv INPE
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv Instituto Nacional de Pesquisas Espaciais (INPE)
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do INPE
instname:Instituto Nacional de Pesquisas Espaciais (INPE)
instacron:INPE
reponame_str Biblioteca Digital de Teses e Dissertações do INPE
collection Biblioteca Digital de Teses e Dissertações do INPE
instname_str Instituto Nacional de Pesquisas Espaciais (INPE)
instacron_str INPE
institution INPE
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)
repository.mail.fl_str_mv
publisher_program_txtF_mv Programa de Pós-Graduação do INPE em Computação Aplicada
contributor_advisor1_txtF_mv Airam Jônatas Preto
_version_ 1706809350128926720