Overview

深層学習による問題解決能力を支える計算基盤

深層学習をはじめとするPreferred Networks(PFN)の中核技術は膨大な計算を要求します。

PFNでは、多量の計算を効率的に実行するために独自の計算機クラスターを複数運用しています。 これらの計算機クラスターはシリーズ毎にナンバリングされており、現在はMN-1、MN-2、MN-3が稼働しています。

Infrastructure

MN-3

MN-3は、PFNと神戸大学が共同開発した超低消費電力の深層学習用プロセッサーMN-Core™を採用してPFNが2020年5月に構築した第3世代のクラスタです。 PFNではMN-3を用いて実用的な深層学習のワークロードの高速化を進めています。MN-3は、スーパーコンピュータの省電力性能ランキングGreen500で2020年6月2021年6月2021年11月に世界1位となり、世界で最も電力効率エネルギー性能に優れたスーパーコンピュータとして認定されました。

計測に使用したシステム構成および演算性能:

2021年11月 2021年6月 2020年11月 2020年6月
ノード数 32ノード 40ノード
MN-Core数 128 160
CPU (Intel Xeon)コア数 1,536 1,920
ピーク性能(各回の測定条件における理論値) 3.390 PFlops 3.138 PFlops 3.92 PFlops
連立一次方程式を解く計算速度(HPLベンチマーク) 2.181 PFlops 1.822 PFlops 1.653 PFlops 1.621 PFlops
省電力性能(消費電力1Wあたりの性能) 39.38 GFlops/W 29.70 GFlops/W 26.04 GFlops/W 21.11 GFlops/W
Green500リストランキング 1位 1位 2位 1位

2021年11月のGreen500 Certificate

Blog記事: MN-3の高精度電力計測にむけた取り組み

     TOP500とGreen500:コンピュータの性能指標をどう読むか

PFNは、MN-Coreを用いる計算機クラスターの段階的な拡充を計画しており、2020年5月に以下の構成で第一期の構築(MN-3a)が完了しています。

MN-3では、32台のMN-Core Server(計算ノード)を2台のMN-Core DirectConnect Switch で密結合した単位をひとかたまりのZoneと呼びます。

MN-3aは、1.5Zone分の計算ノードで構成されます。

Blog記事: MN-3が動き出します

MN-3aクラスターの構成は以下のとおりです。

  • MN-Core Server(計算ノード) x 48台
  • MN-Core Server間の通信ネットワーク
    • MN-Core DirectConnect (MN-Core用に専用開発したインターコネクト技術)
    • 100GbE Ethernet

MN-3aの計算ノード1台あたりの構成は以下になります。

(表) MN-Core Server

MN-Core MN-Core Board x 4
CPU 2-way (Intel Xeon 8260M)
Memory DDR4 384GB
Storage Class Memory 3TB Intel Optane DC Persistent Memory
Network MN-Core DirectConnect + 100Gbps Ethernet

Blog記事: MN-3が動き出します

MN-2

MN-2はGPUを用いた、PFN初の自社構築・管理の計算機クラスターです。2019年7月から運用を開始しています。

MN-2クラスターの構成は以下のとおりです。

  • GPUサーバー(計算ノード) x 128台
  • CPUサーバー(計算ノード) x 32台
  • ストレージサーバー x 24台
  • Ethernet Switch(100GbE) x 18台

MN-2の計算ノード1台あたりの構成は以下のとおりです。

(表) GPUサーバー

GPU NVIDIA V100 SXM x 8
CPU 2-way (Intel Xeon 6254 2way)
Memory DDR4 384GB
Network 100Gbps Ethernet

(表) CPUサーバー

CPU 2-way (Intel Xeon 6254 2way)
Memory DDR4 384GB
Network 100Gbps Ethernet

Blog記事: MN-2が動き出しました

MN-1, MN-1b

MN-1はNTT Communicationsによって運用されているPFN専用のGPU計算機クラスターです。 MN-1クラスターは世代によってMN-1(2017年9月稼働開始)とMN-1b(2018年7月稼働開始~2021年7月終了)の2クラスターに分かれています。

それぞれのクラスターの構成は以下のとおりです。