Overview
深層学習による問題解決能力を支える計算基盤
深層学習をはじめとするPreferred Networks(PFN)の中核技術は膨大な計算を要求します。
PFNでは、多量の計算を効率的に実行するために独自の計算機クラスターを複数運用しています。 これらの計算機クラスターはシリーズ毎にナンバリングされており、現在はMN-1、MN-2、MN-3が稼働しています。
Infrastructure
MN-3
MN-3は、PFNと神戸大学が共同開発した超低消費電力の深層学習用プロセッサーMN-Core™を採用してPFNが2020年5月に構築した第3世代のクラスタです。 PFNではMN-3を用いて実用的な深層学習のワークロードの高速化を進めています。MN-3は、スーパーコンピュータの省電力性能ランキングGreen500で2020年6月、2021年6月、2021年11月に世界1位となり、世界で最も電力効率エネルギー性能に優れたスーパーコンピュータとして認定されました。
計測に使用したシステム構成および演算性能:
2021年11月 | 2021年6月 | 2020年11月 | 2020年6月 | |
ノード数 | 32ノード | 40ノード | ||
MN-Core数 | 128 | 160 | ||
CPU (Intel Xeon)コア数 | 1,536 | 1,920 | ||
ピーク性能(各回の測定条件における理論値) | 3.390 PFlops | 3.138 PFlops | 3.92 PFlops | |
連立一次方程式を解く計算速度(HPLベンチマーク) | 2.181 PFlops | 1.822 PFlops | 1.653 PFlops | 1.621 PFlops |
省電力性能(消費電力1Wあたりの性能) | 39.38 GFlops/W | 29.70 GFlops/W | 26.04 GFlops/W | 21.11 GFlops/W |
Green500リストランキング | 1位 | 1位 | 2位 | 1位 |
2021年11月のGreen500 Certificate
Blog記事: MN-3の高精度電力計測にむけた取り組み
TOP500とGreen500:コンピュータの性能指標をどう読むか
PFNは、MN-Coreを用いる計算機クラスターの段階的な拡充を計画しており、2020年5月に以下の構成で第一期の構築(MN-3a)が完了しています。
MN-3では、32台のMN-Core Server(計算ノード)を2台のMN-Core DirectConnect Switch で密結合した単位をひとかたまりのZoneと呼びます。
MN-3aは、1.5Zone分の計算ノードで構成されます。
Blog記事: MN-3が動き出します
MN-3aクラスターの構成は以下のとおりです。
- MN-Core Server(計算ノード) x 48台
- MN-Core Server間の通信ネットワーク
- MN-Core DirectConnect (MN-Core用に専用開発したインターコネクト技術)
- 100GbE Ethernet
MN-3aの計算ノード1台あたりの構成は以下になります。
(表) MN-Core Server
MN-Core | MN-Core Board x 4 |
CPU | 2-way (Intel Xeon 8260M) |
Memory | DDR4 384GB |
Storage Class Memory | 3TB Intel Optane DC Persistent Memory |
Network | MN-Core DirectConnect + 100Gbps Ethernet |
Blog記事: MN-3が動き出します
MN-2
MN-2はGPUを用いた、PFN初の自社構築・管理の計算機クラスターです。2019年7月から運用を開始しています。
MN-2クラスターの構成は以下のとおりです。
- GPUサーバー(計算ノード) x 128台
- CPUサーバー(計算ノード) x 32台
- ストレージサーバー x 24台
- Ethernet Switch(100GbE) x 18台
MN-2の計算ノード1台あたりの構成は以下のとおりです。
(表) GPUサーバー
GPU | NVIDIA V100 SXM x 8 |
CPU | 2-way (Intel Xeon 6254 2way) |
Memory | DDR4 384GB |
Network | 100Gbps Ethernet |
(表) CPUサーバー
CPU | 2-way (Intel Xeon 6254 2way) |
Memory | DDR4 384GB |
Network | 100Gbps Ethernet |
Blog記事: MN-2が動き出しました
MN-1, MN-1b
MN-1はNTT Communicationsによって運用されているPFN専用のGPU計算機クラスターです。 MN-1クラスターは世代によってMN-1(2017年9月稼働開始)とMN-1b(2018年7月稼働開始~2021年7月終了)の2クラスターに分かれています。
それぞれのクラスターの構成は以下のとおりです。
- MN-1
- GPUサーバー(NVIDIA P100 x 8, InfiniBand FDR(56Gbps)× 2) x 128台
- GPUサーバー(NVIDIA V100 x 8, InfiniBand EDR(100Gbps)× 2) x 64台
- Preferred Networks、深層学習の学習速度において世界最速を実現
- Extremely Large Minibatch SGD: Training ResNet-50 on ImageNet in 15 Minutes
- Preferred Networksのプライベート・スーパーコンピュータが Top 500リストのIndustry領域で国内1位に認定
- 世界454チームが参加した物体検出コンペティション Google AI Open Images - Object Detection Trackで準優勝
- PFDet: 2nd Place Solution to Open Images Challenge 2018 Object Detection Track
MN-1を使った取り組み:
MN-1bを使った取り組み:
Middleware
PFNの計算機クラスターでは、OSSであるKubernetesをコア技術として採用し、独自に開発したスケジューラやフロントエンドを用いることで、機械学習・深層学習を効率よく実行するためのプラットフォームを構築しています。