Overview

深層学習による問題解決能力を支える計算基盤

深層学習をはじめとするPreferred Networks(PFN)の中核技術は膨大な計算を要求します。

PFNでは、多量の計算を効率的に実行するために独自の計算機クラスターを複数運用しています。 これらの計算機クラスターはシリーズ毎にナンバリングされており、現在はMN-1、MN-2、MN-3が稼働しています。

Infrastructure

(2020年5月現在の構成)

MN-3

Blog記事: MN-3が動き出します

MN-3は、PFNが自社開発した深層学習用プロセッサーMN-Coreを初めて用いた計算機クラスターです。2020年5月から運用を開始しています。MN-Coreを用いる計算機クラスターは段階的に拡充する計画で、第一期構築分(MN-3a)として、以下の構成で構築を完了しています。

MN-3では、32台のMN-Core Server(計算ノード)を2台のMN-Core Direct Connect Switch で密結合した単位をひとかたまりのZoneと呼びます。

MN-3aは、1.5Zone分の計算ノードで構成されます。

Blog記事: MN-3が動き出します

MN-3aクラスターの構成は以下になります。

  • MN-Core Server(計算ノード) x 48台
  • MN-Core Direct Connect Switch(インターコネクトノード) x 4台
  • Ethernet Switch(100GbE) x5台

MN-3aの計算ノード1台あたりの構成は以下になります。

(表) MN-Core Server

MN-Core MN-Core Board x 4
CPU Intel Xeon 8260M 2way (48物理core)
Memory 384GB DDR4
Storage Class Memory 3TB Intel Optane DC Persistent Memory
Network MN-Core DirectConnect(112Gbps) x 2
Mellanox ConnectX-6(100GbE) x 2
On board(10GbE) x 2

Blog記事: MN-3が動き出します

MN-2

MN-2はGPUを用いた、PFN初の自社構築・管理の計算機クラスターです。2019年7月から運用を開始しています。

技術的な特徴は、GPU サーバー(計算ノード)の通信基盤にRoCEv2(RDMA over Converged Ethernet)を採用し、InterconnectをEthernetと統合した点にあります。 ストレージサーバー群との高速な通信と、深層学習の集団通信を同じネットワークで遅滞なく効率的に処理できるようになりました。

MN-2クラスターの構成は以下のとおりです。

  • GPUサーバー(計算ノード) x 128台
  • CPUサーバー(計算ノード) x 32台
  • ストレージサーバー x 24台
  • Ethernet Switch(100GbE) x 18台

MN-2の計算ノード1台あたりの構成は以下になります。

(表) GPUサーバー

GPU NVIDIA V100 SXM x 8
CPU Intel Xeon 6254 2way(36物理core)
Memory 384GB DDR4
Network Mellanox ConnectX-4(100GbE) x 4
On board(10GbE) x 2

(表) CPUサーバー

CPU Intel Xeon 6254 2way(36物理core)
Memory 384GB DDR4
Network Mellanox ConnectX-4(100GbE) x 2
On board(10GbE) x 2

Blog記事: MN-2が動き出しました

MN-1, MN-1b

MN-1はNTT Communicationsによって運用されているPFN専用のGPU計算機クラスターです。 MN-1クラスターは世代によってMN-1(2017年9月稼働)とMN-1b(2018年7月稼働)の2クラスターに分かれています。

それぞれのクラスターの構成は以下のとおりです。

  • MN-1
  • GPUサーバー(NVIDIA P100 x 8, InfiniBand FDR(56Gbps)× 2) x 128台
  • MN-1b
  • GPUサーバー(NVIDIA V100 x 8, InfiniBand EDR(100Gbps)× 2) x 64台

MN-1を使った取り組み:

MN-1bを使った取り組み:

Computing Sites

  • NTT Communications Datacenter in Tokyo
    • MN-1, MN-1b
    • サービス契約
  • JAMSTEC (国立研究開発法人 海洋研究開発機構) 横浜研究所 シミュレータ棟内
    • MN-2, MN-3
    • 施設の一部を借用し、独立運用

Middleware

PFNの計算機クラスターでは、OSSであるKubernetesをコア技術として採用し、独自に開発したスケジューラやフロントエンドを用いることで、機械学習・深層学習を効率よく実行するためのプラットフォームを構築しています。