Overview

Preferred Networks(PFN)は、ディープラーニング技術の実世界への応用を目指し、 OSSのディープラーニングフレームワークChainer™の開発や、研究開発を支える大規模クラスターの構築を進めてきました。 その取り組みをさらに加速させるため、PFNはディープラーニングを高速化する専用プロセッサー『MN-Core™(エムエヌ・コア)』を開発しています。

SEMICON Japan 2018では、MN-Coreチップ、ボード、サーバーなど、PFNが独自開発したディープラーニング向けのハードウェアを展示します。

MN-Core

膨大な演算量を必要とするディープラーニングにおいて、演算の高速化は大きな課題のひとつです。

ディープラーニングの学習フェーズに最適化した専用チップは、汎用用途のチップに比べ、機能を限定することで高い処理性能を発揮することができます。 PFNが独自設計したMN-Coreは、ディープラーニングで必要となる行列演算の専用回路を搭載し、必要最小限の機能に特化することで、ディープラーニングの高速化を実現します。

また、電力性能は冷却能力の限界などの理由により、近年のプロセッサー開発でとくに重要視されるようになっています。MN-Coreは、半精度の浮動小数点数演算において、世界最高クラスの電力性能である1 TFLOPS/Wを実現できる見込みです。

(表) MN-Coreチップ

製造プロセス TSMC 12nm
消費電力 (W、予測値) 500
ピーク性能 (TFLOPS) 32.8 (倍精度) / 131 (単精度) / 524 (半精度)
電力性能 (TFLOPS / W、予測値) 0.066 (倍精度) / 0.26 (単精度) / 1.0 (半精度)

Architecture

MN-Coreのアーキテクチャは、極めて高密度にハードウェア実装された行列演算器(MAU、Matrix Arithmetic Unit)を持ちます。

条件分岐のない完全SIMD動作をするシンプルなアーキテクチャとなっており、大量のデータを一度に処理できます。

行列演算器(MAU)と4つのプロセッサエレメント(PE、Processor Element)を合わせたものが、ひとつの行列演算器ブロック(MAB、Matrix Arithmetic Block)となります。プロセッサエレメントによって、行列演算器にデータが供給されます。

各プロセッサエレメントは整数演算器をもっており、ディープラーニングで頻繁に使用する命令もハードウェア実装されています。

ひとつのパッケージは4ダイで構成されており、ダイにつき512個、計2048個の行列演算ブロックが集積されています。 これらは階層的に配置されており、階層間のデータ移動に分配、結合、放送、縮約といった複数のモードを持たせることで、柔軟なプログラミングを可能にしています。

MN-Core Board

MN-Core Boardは、MN-Coreを搭載するためのPCI Express ボードです。専用設計のヒートシンクとブロアファンにより、高温になるMN-Coreを確実に冷却し、MN-Coreの性能を最大限まで引き出します。

(表) MN-Core Board

チップ 1 MN-Core チップ
インターフェース PCI Express Gen3 x16
メモリサイズ 32 GB
消費電力 600 W (予測値)

MN-Core Server

MN-Core Serverは、MN-Core Boardを4枚搭載するために開発した7Uサイズのラックマウントサーバーです。

特別に設計した内部構造と、12個の強力な内蔵ファンにより、高性能CPU、大容量メモリーに加え、MN-Core Board 4枚分の熱量に対する空冷方式での冷却を実現しています。

MN-Core Boardを4枚搭載した際の1ノードあたりの計算速度は、半精度演算でおよそ2PFLOPSとなる見込みです。

(表) MN-Core Server

MN-Core 搭載数 4 MN-Core Boards
CPU Dual socket up to TDP 200W
メモリ DDR4 up to 2666MHz / Up to 3TB ECC 3DS LRDIMM, 1TB ECC RDIMM
ストレージ Up to 24 SAS/SATA drive bays / 8x 2.5" SAS/SATA supported natively, 2x 2.5" NVMe supported natively
電源ユニット 4 2000W (2+2 Redundant) Titanium Level
サイズ H311mm, W437mm, D737mm (7U Rack-mountable)

Cluster

PFNはこれらの計算機基盤の開発を進め、1000ノードを超える専用サーバーからなる大規模クラスター「MN-3」を構築する予定です。

MN-3の計算速度は、最終的に2EFLOPSまで拡大することを目標としています。
MN-3以降では、それぞれ得意分野の異なるMN-CoreとGPGPU(General-purpose computing on GPU; GPUによる汎用計算)を組み合わせて利用することで、より効率的な計算環境の構築を目指します。
今後、ディープラーニングフレームワークChainerにおいて、MN-Coreをバックエンドとして選択できるように開発を進め、MN-3とChainerによる分散深層学習を加速し、これまで未解決の課題に挑戦していきます。

MN-3 (完成イメージ)

Special Thanks

牧野 淳一郎氏(神戸大学 教授)の研究グループにはMN-Coreの仕様策定を主導していただき、実績に支えられたハードウェアを設計開発することができました。

平木 敬氏(東京大学 名誉教授)には、高速伝送基板の評価をご指導いただきました。

MN-Coreは、NEDOの公募プロジェクトに採択されたところからはじまりました。

そのプロジェクトで制作したプロセッサでは、理化学研究所の村主 崇行氏、坪内 美幸氏をはじめとする、牧野教授の研究チームメンバーと共同で研究開発を行いました。MN-Coreは、そのときの知見を活かして設計開発しています。

(左:牧野教授、右:平木教授。写真提供:稲葉真理 東京大学 准教授)

Our Team

※MN-Core™ およびChainer™ は、株式会社Preferred Networksの日本またはその他の国における商標または登録商標です。