Design and exploration of 3D MPSoCs with on-chip cache support

Detalhes bibliográficos
Autor(a) principal: Cataldo, Rodrigo Cadore
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da PUC_RS
Texto Completo: http://tede2.pucrs.br/tede2/handle/tede/6924
Resumo: Avanços na tecnologia de fabricação de semicondutores permitiram implementar um sistema computacional completo em um único chip, em inglês de System-on-Chip (SoC). SoCs integram múltiplos elementos de processamento (PEs), componentes de memória e dispositivos de entrada/saída. Este trabalho emprega o termo inglês Multiprocessor System-on-Chip (MPSoCs) para um SoC que integra múltiplos PEs cooperantes. À medida que o número de PEs aumenta em um MPSoC, torna-se necessário o uso de arquiteturas que proveem escalabilidade e concorrência da comunicação. A rede intrachip, em inglês Network-on-Chip (NoC), que interconecta o sistema através de roteadores distribuídos no chip foi proposta para atender estes requisitos. O sistema de interconexão também deve prover recursos para atender a comunicação entre PEs e módulos de memória. Infelizmente, trabalhos prévios demonstraram que basear toda a comunicação de memória com uma NoC não é adequado para atender os requisitos de latência. Além disso, muitas propostas baseadas em NoC descartam o suporte à programação do tipo memória compartilhada que permanece um requisito básico de aplicações paralelas. A principal contribuição deste trabalho é o projeto e exploração experimental de MPSoCs 3D com suporte a caches intrachip que empregam uma matriz de chaveamento com suporte à coerência de cache para comunicação entre PEs e a hierarquia de memória, e uma NoC para a intercomunicação de PEs, devido à sua eficiência em transmitir pequenos pacotes e sua escalabilidade. Resultados experimentais foram realizados com o simulador Gem5 utilizando o conjunto de instruções da ARM e dois benchmarks: PARSEC e NASA NAS. Os resultados foram organizados em três conjuntos de avaliação: 1. Avaliação da memória principal utilizando memórias emergentes baseadas em tecnologias 3D e duas memórias tradicionais para desktops: Double Data Rate (DDR) e Low Power (LP) DDR. Para a pluralidade das aplicações, memórias emergentes resultaram em um impacto igual ou menor que 10% de acréscimo no tempo de execução provendo significativa redução no consumo de energia, quando comparadas às memórias tipo DDR; 2. Avaliação de caches utilizando cinco arquiteturas de cache e explorando seus efeitos no tempo de execução de aplicações e consumo de energia. Foram exploradas três arquiteturas compartilhadas e duas arquiteturas privadas em caches L2. Para a maioria das aplicações, a tradicional arquitetura compartilhada da L2 mostrou o melhor tempo de execução. Entretanto, para o consumo de energia, as arquiteturas L2 privadas obtiveram os melhores resultados; 3. Avaliação da escalabilidade do sistema proposto. Os experimentos utilizaram vários tamanhos de clusters e aplicações baseadas em troca de mensagens.
id P_RS_fc99cadfc250763c80f1adb673292bff
oai_identifier_str oai:tede2.pucrs.br:tede/6924
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Marcon, César Augusto Missio527.508.250-91http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4782473A7Matos, Débora da Silva Mottahttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4236193H8019.253.350-97http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4384464P0Cataldo, Rodrigo Cadore2016-08-25T16:13:03Z2016-03-04http://tede2.pucrs.br/tede2/handle/tede/6924Avanços na tecnologia de fabricação de semicondutores permitiram implementar um sistema computacional completo em um único chip, em inglês de System-on-Chip (SoC). SoCs integram múltiplos elementos de processamento (PEs), componentes de memória e dispositivos de entrada/saída. Este trabalho emprega o termo inglês Multiprocessor System-on-Chip (MPSoCs) para um SoC que integra múltiplos PEs cooperantes. À medida que o número de PEs aumenta em um MPSoC, torna-se necessário o uso de arquiteturas que proveem escalabilidade e concorrência da comunicação. A rede intrachip, em inglês Network-on-Chip (NoC), que interconecta o sistema através de roteadores distribuídos no chip foi proposta para atender estes requisitos. O sistema de interconexão também deve prover recursos para atender a comunicação entre PEs e módulos de memória. Infelizmente, trabalhos prévios demonstraram que basear toda a comunicação de memória com uma NoC não é adequado para atender os requisitos de latência. Além disso, muitas propostas baseadas em NoC descartam o suporte à programação do tipo memória compartilhada que permanece um requisito básico de aplicações paralelas. A principal contribuição deste trabalho é o projeto e exploração experimental de MPSoCs 3D com suporte a caches intrachip que empregam uma matriz de chaveamento com suporte à coerência de cache para comunicação entre PEs e a hierarquia de memória, e uma NoC para a intercomunicação de PEs, devido à sua eficiência em transmitir pequenos pacotes e sua escalabilidade. Resultados experimentais foram realizados com o simulador Gem5 utilizando o conjunto de instruções da ARM e dois benchmarks: PARSEC e NASA NAS. Os resultados foram organizados em três conjuntos de avaliação: 1. Avaliação da memória principal utilizando memórias emergentes baseadas em tecnologias 3D e duas memórias tradicionais para desktops: Double Data Rate (DDR) e Low Power (LP) DDR. Para a pluralidade das aplicações, memórias emergentes resultaram em um impacto igual ou menor que 10% de acréscimo no tempo de execução provendo significativa redução no consumo de energia, quando comparadas às memórias tipo DDR; 2. Avaliação de caches utilizando cinco arquiteturas de cache e explorando seus efeitos no tempo de execução de aplicações e consumo de energia. Foram exploradas três arquiteturas compartilhadas e duas arquiteturas privadas em caches L2. Para a maioria das aplicações, a tradicional arquitetura compartilhada da L2 mostrou o melhor tempo de execução. Entretanto, para o consumo de energia, as arquiteturas L2 privadas obtiveram os melhores resultados; 3. Avaliação da escalabilidade do sistema proposto. Os experimentos utilizaram vários tamanhos de clusters e aplicações baseadas em troca de mensagens.Advances in semiconductor manufacturing technology have allowed implement the whole computing system into a single chip, which is namely System-on-Chip (SoC). SoCs integrate several processing elements (PE), memory components and I/O devices. This work employs the term Multiprocessor Systems-on-Chip (MPSoCs) to SoCs that integrate several cooperating PEs. The increasing quantity of PEs in an MPSoC demands the use of architectures that provide scalability and concurrent communication. The Network-on-Chip (NoC) that interconnects the system through distributed routers has come to tackle these requirements. The interconnection system must also provide resources to fulfil the communication between PEs and memory modules. Unfortunately, previous works have shown that a single packet-based NoC is not well-suited to provide scalability and low latency for cache supported systems. Additionally, many NoC-based designs lack support for a shared-memory programming model that is an essential requirement for most of the parallel applications. The main contribution of this work is the design and experimental exploration of 3D MPSoCs with on-chip cache support that employ a crossbar-based infrastructure for the cache-coherent memory hierarchy, and a packet-based NoC for inter-processor communication, due to its efficiency in travelling small packets and its benefits to ever-increasing scalability requirements. Experimental results performed on the Gem5 simulator using the ARM’s ISA and PARSEC and NASA NAS benchmarks were conducted under three evaluations scenarios: 1. Main memory evaluation using emerging 3D memory technologies and two traditional desktop memories: Double Data Rate (DDR) and mobile Low Power (LP) DDR. For the plurality of the applications, the emerging 3D memory technologies had less or equal than 10% of runtime execution increase providing significant energy saving when compared with DDR memories; 2. Cache evaluation using five cache architectures and exploring its effects on execution runtime and energy consumption. Three shared L2 cache designs and two private L2 cache design were explored. For the majority of the applications evaluated, the traditional shared L2 design had the lowest execution runtime. However, the private L2 designs showed the lowest energy consumption; 3. Scalability evaluation of the proposed system. Experiments using various sizes of clusters and applications based on message exchange.Submitted by Setor de Tratamento da Informação - BC/PUCRS (tede2@pucrs.br) on 2016-08-25T16:13:03Z No. of bitstreams: 1 DIS_RODRIGO_CADORE_CATALDO_COMPLETO.pdf: 7126312 bytes, checksum: ce5099664b8e90c2cb1206af9f3c6cc4 (MD5)Made available in DSpace on 2016-08-25T16:13:03Z (GMT). No. of bitstreams: 1 DIS_RODRIGO_CADORE_CATALDO_COMPLETO.pdf: 7126312 bytes, checksum: ce5099664b8e90c2cb1206af9f3c6cc4 (MD5) Previous issue date: 2016-03-04application/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/166122/DIS_RODRIGO_CADORE_CATALDO_COMPLETO.pdf.jpgengPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBrasilFaculdade de InformáticaENERGIA ELÉTRICA - CONSUMOMULTIPROCESSADORESARQUITETURA DE COMPUTADORINFORMÁTICACIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAODesign and exploration of 3D MPSoCs with on-chip cache supportProjeto e exploração de MPSoCs 3D com suporte a caches intrachipinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis1974996533081274470600600600-30085425104011491443671711205811204509info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAILDIS_RODRIGO_CADORE_CATALDO_COMPLETO.pdf.jpgDIS_RODRIGO_CADORE_CATALDO_COMPLETO.pdf.jpgimage/jpeg4245http://tede2.pucrs.br/tede2/bitstream/tede/6924/5/DIS_RODRIGO_CADORE_CATALDO_COMPLETO.pdf.jpg144d2544157060db4d9911dd12ccafa6MD55TEXTDIS_RODRIGO_CADORE_CATALDO_COMPLETO.pdf.txtDIS_RODRIGO_CADORE_CATALDO_COMPLETO.pdf.txttext/plain295770http://tede2.pucrs.br/tede2/bitstream/tede/6924/4/DIS_RODRIGO_CADORE_CATALDO_COMPLETO.pdf.txt2cd004aa402405337c6c615c997c10c1MD54LICENSElicense.txtlicense.txttext/plain; charset=utf-8610http://tede2.pucrs.br/tede2/bitstream/tede/6924/3/license.txt5a9d6006225b368ef605ba16b4f6d1beMD53ORIGINALDIS_RODRIGO_CADORE_CATALDO_COMPLETO.pdfDIS_RODRIGO_CADORE_CATALDO_COMPLETO.pdfapplication/pdf7126312http://tede2.pucrs.br/tede2/bitstream/tede/6924/2/DIS_RODRIGO_CADORE_CATALDO_COMPLETO.pdfce5099664b8e90c2cb1206af9f3c6cc4MD52tede/69242016-08-25 20:00:50.701oai:tede2.pucrs.br:tede/6924QXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2HDp8OjbyBFbGV0csO0bmljYTogQ29tIGJhc2Ugbm8gZGlzcG9zdG8gbmEgTGVpIEZlZGVyYWwgbsK6OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYcOnw6NvIGVsZXRyw7RuaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWbDrWNpYSBVbml2ZXJzaWRhZGUgQ2F0w7NsaWNhIGRvIFJpbyBHcmFuZGUgZG8gU3VsLCBzZWRpYWRhIGEgQXYuIElwaXJhbmdhIDY2ODEsIFBvcnRvIEFsZWdyZSwgUmlvIEdyYW5kZSBkbyBTdWwsIGNvbSByZWdpc3RybyBkZSBDTlBKIDg4NjMwNDEzMDAwMi04MSBiZW0gY29tbyBlbSBvdXRyYXMgYmlibGlvdGVjYXMgZGlnaXRhaXMsIG5hY2lvbmFpcyBlIGludGVybmFjaW9uYWlzLCBjb25zw7NyY2lvcyBlIHJlZGVzIMOgcyBxdWFpcyBhIGJpYmxpb3RlY2EgZGEgUFVDUlMgcG9zc2EgYSB2aXIgcGFydGljaXBhciwgc2VtIMO0bnVzIGFsdXNpdm8gYW9zIGRpcmVpdG9zIGF1dG9yYWlzLCBhIHTDrXR1bG8gZGUgZGl2dWxnYcOnw6NvIGRhIHByb2R1w6fDo28gY2llbnTDrWZpY2EuCg==Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2016-08-25T23:00:50Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.por.fl_str_mv Design and exploration of 3D MPSoCs with on-chip cache support
dc.title.alternative.por.fl_str_mv Projeto e exploração de MPSoCs 3D com suporte a caches intrachip
title Design and exploration of 3D MPSoCs with on-chip cache support
spellingShingle Design and exploration of 3D MPSoCs with on-chip cache support
Cataldo, Rodrigo Cadore
ENERGIA ELÉTRICA - CONSUMO
MULTIPROCESSADORES
ARQUITETURA DE COMPUTADOR
INFORMÁTICA
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Design and exploration of 3D MPSoCs with on-chip cache support
title_full Design and exploration of 3D MPSoCs with on-chip cache support
title_fullStr Design and exploration of 3D MPSoCs with on-chip cache support
title_full_unstemmed Design and exploration of 3D MPSoCs with on-chip cache support
title_sort Design and exploration of 3D MPSoCs with on-chip cache support
author Cataldo, Rodrigo Cadore
author_facet Cataldo, Rodrigo Cadore
author_role author
dc.contributor.advisor1.fl_str_mv Marcon, César Augusto Missio
dc.contributor.advisor1ID.fl_str_mv 527.508.250-91
dc.contributor.advisor1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4782473A7
dc.contributor.advisor-co1.fl_str_mv Matos, Débora da Silva Motta
dc.contributor.advisor-co1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4236193H8
dc.contributor.authorID.fl_str_mv 019.253.350-97
dc.contributor.authorLattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4384464P0
dc.contributor.author.fl_str_mv Cataldo, Rodrigo Cadore
contributor_str_mv Marcon, César Augusto Missio
Matos, Débora da Silva Motta
dc.subject.por.fl_str_mv ENERGIA ELÉTRICA - CONSUMO
MULTIPROCESSADORES
ARQUITETURA DE COMPUTADOR
INFORMÁTICA
topic ENERGIA ELÉTRICA - CONSUMO
MULTIPROCESSADORES
ARQUITETURA DE COMPUTADOR
INFORMÁTICA
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Avanços na tecnologia de fabricação de semicondutores permitiram implementar um sistema computacional completo em um único chip, em inglês de System-on-Chip (SoC). SoCs integram múltiplos elementos de processamento (PEs), componentes de memória e dispositivos de entrada/saída. Este trabalho emprega o termo inglês Multiprocessor System-on-Chip (MPSoCs) para um SoC que integra múltiplos PEs cooperantes. À medida que o número de PEs aumenta em um MPSoC, torna-se necessário o uso de arquiteturas que proveem escalabilidade e concorrência da comunicação. A rede intrachip, em inglês Network-on-Chip (NoC), que interconecta o sistema através de roteadores distribuídos no chip foi proposta para atender estes requisitos. O sistema de interconexão também deve prover recursos para atender a comunicação entre PEs e módulos de memória. Infelizmente, trabalhos prévios demonstraram que basear toda a comunicação de memória com uma NoC não é adequado para atender os requisitos de latência. Além disso, muitas propostas baseadas em NoC descartam o suporte à programação do tipo memória compartilhada que permanece um requisito básico de aplicações paralelas. A principal contribuição deste trabalho é o projeto e exploração experimental de MPSoCs 3D com suporte a caches intrachip que empregam uma matriz de chaveamento com suporte à coerência de cache para comunicação entre PEs e a hierarquia de memória, e uma NoC para a intercomunicação de PEs, devido à sua eficiência em transmitir pequenos pacotes e sua escalabilidade. Resultados experimentais foram realizados com o simulador Gem5 utilizando o conjunto de instruções da ARM e dois benchmarks: PARSEC e NASA NAS. Os resultados foram organizados em três conjuntos de avaliação: 1. Avaliação da memória principal utilizando memórias emergentes baseadas em tecnologias 3D e duas memórias tradicionais para desktops: Double Data Rate (DDR) e Low Power (LP) DDR. Para a pluralidade das aplicações, memórias emergentes resultaram em um impacto igual ou menor que 10% de acréscimo no tempo de execução provendo significativa redução no consumo de energia, quando comparadas às memórias tipo DDR; 2. Avaliação de caches utilizando cinco arquiteturas de cache e explorando seus efeitos no tempo de execução de aplicações e consumo de energia. Foram exploradas três arquiteturas compartilhadas e duas arquiteturas privadas em caches L2. Para a maioria das aplicações, a tradicional arquitetura compartilhada da L2 mostrou o melhor tempo de execução. Entretanto, para o consumo de energia, as arquiteturas L2 privadas obtiveram os melhores resultados; 3. Avaliação da escalabilidade do sistema proposto. Os experimentos utilizaram vários tamanhos de clusters e aplicações baseadas em troca de mensagens.
publishDate 2016
dc.date.accessioned.fl_str_mv 2016-08-25T16:13:03Z
dc.date.issued.fl_str_mv 2016-03-04
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://tede2.pucrs.br/tede2/handle/tede/6924
url http://tede2.pucrs.br/tede2/handle/tede/6924
dc.language.iso.fl_str_mv eng
language eng
dc.relation.program.fl_str_mv 1974996533081274470
dc.relation.confidence.fl_str_mv 600
600
600
dc.relation.department.fl_str_mv -3008542510401149144
dc.relation.cnpq.fl_str_mv 3671711205811204509
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv PUCRS
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Faculdade de Informática
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
bitstream.url.fl_str_mv http://tede2.pucrs.br/tede2/bitstream/tede/6924/5/DIS_RODRIGO_CADORE_CATALDO_COMPLETO.pdf.jpg
http://tede2.pucrs.br/tede2/bitstream/tede/6924/4/DIS_RODRIGO_CADORE_CATALDO_COMPLETO.pdf.txt
http://tede2.pucrs.br/tede2/bitstream/tede/6924/3/license.txt
http://tede2.pucrs.br/tede2/bitstream/tede/6924/2/DIS_RODRIGO_CADORE_CATALDO_COMPLETO.pdf
bitstream.checksum.fl_str_mv 144d2544157060db4d9911dd12ccafa6
2cd004aa402405337c6c615c997c10c1
5a9d6006225b368ef605ba16b4f6d1be
ce5099664b8e90c2cb1206af9f3c6cc4
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1799765321335177216