Um processo otimizado de produção de mapas da radiação cósmica de fundo em microondas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2003 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações do INPE |
Texto Completo: | http://urlib.net/sid.inpe.br/jeferson/2003/05.15.11.23 |
Resumo: | Este trabalho propõe uma estratégia de otimização de desempenho para o software de produção de mapas da Radiação Cósmica de Fundo em Microondas (RCFM), onde se busca a minimização do tempo de processamento utilizando uma arquitetura paralela de memória distribuída. Inicialmente, um código desenvolvido em Fortran foi portado para Fortran 90 e High Performance Fortran (HPF), em uma implementação baseada em paralelismo de dados, sendo executado em uma arquitetura paralela de memória compartilhada. O código foi convenientemente dividido em trechos e foi instrumentado para prover informações dos tempos de execução de cada trecho. A análise dos tempos de execução mostrou um "gargalo" de desempenho nas rotinas que implementam a convolução de matrizes, o que é feito por um algoritmo Fast Fourier Transform (FFT) bidimensional. Esta rotina é a maior consumidora de tempo de CPU devido à distribuição de dados entre os processadores. No algoritmo FFT, a matriz de convolução deve ser transposta. Tipicamente, um bloco de colunas desta matriz é atribuído a cada processador, mas no cálculo da matriz transposta, blocos de linhas da mesma matriz devem ser lidos. Isto é claramente, uma operação pouco eficiente quando se utiliza o HPF. A rotina FFT foi portada para Message Passing Interface (MPI), combinando paralelismo de dados e tarefas. A arquitetura paralela de memória distribuída utilizada é um beowulf cluster de 16 nós, sendo cada nó um computador Linux IA-32. O uso de MPI para melhorar o desempenho do HPF foi proposto por Foster et al. em ?Double standards: bringing task parallelism to HPF via the Message Passing Interface? e foi utilizado em uma rotina 2D-FFT com o objetivo de proporcionar uma comunicação mais eficiente entre os nós no cálculo de uma matriz transposta. Este trabalho apresenta as avaliações do método utilizado, que pode ser aplicado a outras rotinas consumidoras de tempo de CPU. A análise dos tempos de execução fornece indícios para se conseguir um melhor balanceamento de carga e menor tempo de comunicação entre os nós. |
id |
INPE_d86397e5d9f1ede84f3a8cebb7fcb71c |
---|---|
oai_identifier_str |
oai:urlib.net:sid.inpe.br/jeferson/2003/05.15.11.23.56-0 |
network_acronym_str |
INPE |
network_name_str |
Biblioteca Digital de Teses e Dissertações do INPE |
spelling |
info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUm processo otimizado de produção de mapas da radiação cósmica de fundo em microondasAn optimized process of production of cosmic microwave backgroud radiation maps2003-03-27Airam Jônatas PretoStephan StephanyCarlos Alexandre WuenscheNewton de Figueiredo FilhoJosé Oscar FernandesInstituto Nacional de Pesquisas Espaciais (INPE)Programa de Pós-Graduação do INPE em Computação AplicadaINPEBRradiação cósmica de fundo em microondas (RCFM)sistemas de processamento paraleloredução de dadosFORTRAN (linguagem de programação)programação de sistemas computacionaisEste trabalho propõe uma estratégia de otimização de desempenho para o software de produção de mapas da Radiação Cósmica de Fundo em Microondas (RCFM), onde se busca a minimização do tempo de processamento utilizando uma arquitetura paralela de memória distribuída. Inicialmente, um código desenvolvido em Fortran foi portado para Fortran 90 e High Performance Fortran (HPF), em uma implementação baseada em paralelismo de dados, sendo executado em uma arquitetura paralela de memória compartilhada. O código foi convenientemente dividido em trechos e foi instrumentado para prover informações dos tempos de execução de cada trecho. A análise dos tempos de execução mostrou um "gargalo" de desempenho nas rotinas que implementam a convolução de matrizes, o que é feito por um algoritmo Fast Fourier Transform (FFT) bidimensional. Esta rotina é a maior consumidora de tempo de CPU devido à distribuição de dados entre os processadores. No algoritmo FFT, a matriz de convolução deve ser transposta. Tipicamente, um bloco de colunas desta matriz é atribuído a cada processador, mas no cálculo da matriz transposta, blocos de linhas da mesma matriz devem ser lidos. Isto é claramente, uma operação pouco eficiente quando se utiliza o HPF. A rotina FFT foi portada para Message Passing Interface (MPI), combinando paralelismo de dados e tarefas. A arquitetura paralela de memória distribuída utilizada é um beowulf cluster de 16 nós, sendo cada nó um computador Linux IA-32. O uso de MPI para melhorar o desempenho do HPF foi proposto por Foster et al. em ?Double standards: bringing task parallelism to HPF via the Message Passing Interface? e foi utilizado em uma rotina 2D-FFT com o objetivo de proporcionar uma comunicação mais eficiente entre os nós no cálculo de uma matriz transposta. Este trabalho apresenta as avaliações do método utilizado, que pode ser aplicado a outras rotinas consumidoras de tempo de CPU. A análise dos tempos de execução fornece indícios para se conseguir um melhor balanceamento de carga e menor tempo de comunicação entre os nós.The current work describes the optimization and parallelization of the software for the production of Cosmic Microwave Background (CMB) radiation maps in a distributed memory architecture. Initially, the Fortran code was ported to Fortran 90 and to High Performance Fortran (HPF) and run in a SMP (Shared Memory Processor) machine. In order to provide timing information, calls to operating system timing routines were imbedded in the code. Analysis of timing information shows performance bottlenecks in the matrix convolution routine, which is done by a two-dimensional Fast Fourier Transform (FFT) algorithm. This is a time consuming routine due to data distribution among processors. Due to the FFT algorithm the convolution matrix has to be transposed. Typically, a block of columns of this matrix is assigned to each processor but, in order to calculate the transposed matrix, block of lines of the same matrix must be read. This was clearly an inefficient issue running HPF on that machine. The FFT routine was ported to Message Passing Interface (MPI) mixing task and data parallelism. The used distributed memory machine is a Beowulf cluster, each node being a Linux IA-32 computer. The use of MPI to enhance HPF performance was already proposed by Foster et al. in ?Double standards: bringing task parallelism to HPF via the Message Passing Interface? and was used in the 2D FFT routine in order to provide a more efficient communication between nodes in the calculation of the transposed matrix. This work presents the evaluations of the used method, and the same approach could be used in other time consuming routines of the CMB code. The timing analysis provides clues to enhance load balancing and data communication between nodes.http://urlib.net/sid.inpe.br/jeferson/2003/05.15.11.23info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Teses e Dissertações do INPEinstname:Instituto Nacional de Pesquisas Espaciais (INPE)instacron:INPE2021-07-31T06:52:50Zoai:urlib.net:sid.inpe.br/jeferson/2003/05.15.11.23.56-0Biblioteca Digital de Teses e Dissertaçõeshttp://bibdigital.sid.inpe.br/PUBhttp://bibdigital.sid.inpe.br/col/iconet.com.br/banon/2003/11.21.21.08/doc/oai.cgiopendoar:32772021-07-31 06:52:51.104Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)false |
dc.title.pt.fl_str_mv |
Um processo otimizado de produção de mapas da radiação cósmica de fundo em microondas |
dc.title.alternative.en.fl_str_mv |
An optimized process of production of cosmic microwave backgroud radiation maps |
title |
Um processo otimizado de produção de mapas da radiação cósmica de fundo em microondas |
spellingShingle |
Um processo otimizado de produção de mapas da radiação cósmica de fundo em microondas José Oscar Fernandes |
title_short |
Um processo otimizado de produção de mapas da radiação cósmica de fundo em microondas |
title_full |
Um processo otimizado de produção de mapas da radiação cósmica de fundo em microondas |
title_fullStr |
Um processo otimizado de produção de mapas da radiação cósmica de fundo em microondas |
title_full_unstemmed |
Um processo otimizado de produção de mapas da radiação cósmica de fundo em microondas |
title_sort |
Um processo otimizado de produção de mapas da radiação cósmica de fundo em microondas |
author |
José Oscar Fernandes |
author_facet |
José Oscar Fernandes |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Airam Jônatas Preto |
dc.contributor.advisor2.fl_str_mv |
Stephan Stephany |
dc.contributor.referee1.fl_str_mv |
Carlos Alexandre Wuensche |
dc.contributor.referee2.fl_str_mv |
Newton de Figueiredo Filho |
dc.contributor.author.fl_str_mv |
José Oscar Fernandes |
contributor_str_mv |
Airam Jônatas Preto Stephan Stephany Carlos Alexandre Wuensche Newton de Figueiredo Filho |
dc.description.abstract.por.fl_txt_mv |
Este trabalho propõe uma estratégia de otimização de desempenho para o software de produção de mapas da Radiação Cósmica de Fundo em Microondas (RCFM), onde se busca a minimização do tempo de processamento utilizando uma arquitetura paralela de memória distribuída. Inicialmente, um código desenvolvido em Fortran foi portado para Fortran 90 e High Performance Fortran (HPF), em uma implementação baseada em paralelismo de dados, sendo executado em uma arquitetura paralela de memória compartilhada. O código foi convenientemente dividido em trechos e foi instrumentado para prover informações dos tempos de execução de cada trecho. A análise dos tempos de execução mostrou um "gargalo" de desempenho nas rotinas que implementam a convolução de matrizes, o que é feito por um algoritmo Fast Fourier Transform (FFT) bidimensional. Esta rotina é a maior consumidora de tempo de CPU devido à distribuição de dados entre os processadores. No algoritmo FFT, a matriz de convolução deve ser transposta. Tipicamente, um bloco de colunas desta matriz é atribuído a cada processador, mas no cálculo da matriz transposta, blocos de linhas da mesma matriz devem ser lidos. Isto é claramente, uma operação pouco eficiente quando se utiliza o HPF. A rotina FFT foi portada para Message Passing Interface (MPI), combinando paralelismo de dados e tarefas. A arquitetura paralela de memória distribuída utilizada é um beowulf cluster de 16 nós, sendo cada nó um computador Linux IA-32. O uso de MPI para melhorar o desempenho do HPF foi proposto por Foster et al. em ?Double standards: bringing task parallelism to HPF via the Message Passing Interface? e foi utilizado em uma rotina 2D-FFT com o objetivo de proporcionar uma comunicação mais eficiente entre os nós no cálculo de uma matriz transposta. Este trabalho apresenta as avaliações do método utilizado, que pode ser aplicado a outras rotinas consumidoras de tempo de CPU. A análise dos tempos de execução fornece indícios para se conseguir um melhor balanceamento de carga e menor tempo de comunicação entre os nós. |
dc.description.abstract.eng.fl_txt_mv |
The current work describes the optimization and parallelization of the software for the production of Cosmic Microwave Background (CMB) radiation maps in a distributed memory architecture. Initially, the Fortran code was ported to Fortran 90 and to High Performance Fortran (HPF) and run in a SMP (Shared Memory Processor) machine. In order to provide timing information, calls to operating system timing routines were imbedded in the code. Analysis of timing information shows performance bottlenecks in the matrix convolution routine, which is done by a two-dimensional Fast Fourier Transform (FFT) algorithm. This is a time consuming routine due to data distribution among processors. Due to the FFT algorithm the convolution matrix has to be transposed. Typically, a block of columns of this matrix is assigned to each processor but, in order to calculate the transposed matrix, block of lines of the same matrix must be read. This was clearly an inefficient issue running HPF on that machine. The FFT routine was ported to Message Passing Interface (MPI) mixing task and data parallelism. The used distributed memory machine is a Beowulf cluster, each node being a Linux IA-32 computer. The use of MPI to enhance HPF performance was already proposed by Foster et al. in ?Double standards: bringing task parallelism to HPF via the Message Passing Interface? and was used in the 2D FFT routine in order to provide a more efficient communication between nodes in the calculation of the transposed matrix. This work presents the evaluations of the used method, and the same approach could be used in other time consuming routines of the CMB code. The timing analysis provides clues to enhance load balancing and data communication between nodes. |
description |
Este trabalho propõe uma estratégia de otimização de desempenho para o software de produção de mapas da Radiação Cósmica de Fundo em Microondas (RCFM), onde se busca a minimização do tempo de processamento utilizando uma arquitetura paralela de memória distribuída. Inicialmente, um código desenvolvido em Fortran foi portado para Fortran 90 e High Performance Fortran (HPF), em uma implementação baseada em paralelismo de dados, sendo executado em uma arquitetura paralela de memória compartilhada. O código foi convenientemente dividido em trechos e foi instrumentado para prover informações dos tempos de execução de cada trecho. A análise dos tempos de execução mostrou um "gargalo" de desempenho nas rotinas que implementam a convolução de matrizes, o que é feito por um algoritmo Fast Fourier Transform (FFT) bidimensional. Esta rotina é a maior consumidora de tempo de CPU devido à distribuição de dados entre os processadores. No algoritmo FFT, a matriz de convolução deve ser transposta. Tipicamente, um bloco de colunas desta matriz é atribuído a cada processador, mas no cálculo da matriz transposta, blocos de linhas da mesma matriz devem ser lidos. Isto é claramente, uma operação pouco eficiente quando se utiliza o HPF. A rotina FFT foi portada para Message Passing Interface (MPI), combinando paralelismo de dados e tarefas. A arquitetura paralela de memória distribuída utilizada é um beowulf cluster de 16 nós, sendo cada nó um computador Linux IA-32. O uso de MPI para melhorar o desempenho do HPF foi proposto por Foster et al. em ?Double standards: bringing task parallelism to HPF via the Message Passing Interface? e foi utilizado em uma rotina 2D-FFT com o objetivo de proporcionar uma comunicação mais eficiente entre os nós no cálculo de uma matriz transposta. Este trabalho apresenta as avaliações do método utilizado, que pode ser aplicado a outras rotinas consumidoras de tempo de CPU. A análise dos tempos de execução fornece indícios para se conseguir um melhor balanceamento de carga e menor tempo de comunicação entre os nós. |
publishDate |
2003 |
dc.date.issued.fl_str_mv |
2003-03-27 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
status_str |
publishedVersion |
format |
masterThesis |
dc.identifier.uri.fl_str_mv |
http://urlib.net/sid.inpe.br/jeferson/2003/05.15.11.23 |
url |
http://urlib.net/sid.inpe.br/jeferson/2003/05.15.11.23 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Instituto Nacional de Pesquisas Espaciais (INPE) |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação do INPE em Computação Aplicada |
dc.publisher.initials.fl_str_mv |
INPE |
dc.publisher.country.fl_str_mv |
BR |
publisher.none.fl_str_mv |
Instituto Nacional de Pesquisas Espaciais (INPE) |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do INPE instname:Instituto Nacional de Pesquisas Espaciais (INPE) instacron:INPE |
reponame_str |
Biblioteca Digital de Teses e Dissertações do INPE |
collection |
Biblioteca Digital de Teses e Dissertações do INPE |
instname_str |
Instituto Nacional de Pesquisas Espaciais (INPE) |
instacron_str |
INPE |
institution |
INPE |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE) |
repository.mail.fl_str_mv |
|
publisher_program_txtF_mv |
Programa de Pós-Graduação do INPE em Computação Aplicada |
contributor_advisor1_txtF_mv |
Airam Jônatas Preto |
_version_ |
1706809350128926720 |