2. 高速化推進研究活動報告

スーパーコンピューティング研究部  高橋慧智 滝沢寛之 下村陽一

2.1. はじめに

現在,スーパーコンピュータは多様な科学技術分野・学術分野において,研究・開発を加速する計算基盤としてだけでなく,気象予測,洪水被害予測,津波浸水被害予測など,われわれの安全・安心な暮らしを支える社会基盤としても重要な役割を担っている.その結果,高い演算性能に対する要求は留まることを知らず,これらのニーズに応えるべく,サイバーサイエンスセンターは提供計算資源とそのサービスの質の向上に努めている.一方,近年のスーパーコンピュータは,メニーコア化,メモリ階層の深化,異種プロセッサ搭載の複合型システムの普及など,システムの大規模・複雑化が進み,スーパーコンピュータの性能を引き出すためには,計算機科学の知識がすでに必要不可欠となっている.本センターでは,1997年からスーパーコンピューティング研究部,高性能計算技術開発(NEC)共同研究部門,共同利用支援係,共同研究支援係の計算機科学に関する知識と経験を計算科学者である利用者と共有するべく,臨床学的な視点からプログラムの高速化技術と新しいシミュレーション技術開発に関する共同研究を推進している.これらの共同研究を通して得られた知見を将来のシステム設計に反映させることで,利用者にとって使い勝手の良いシステムの実現に向けた研究開発も行っている.本章では本センターにおける高速化推進研究活動について述べる.

2.2. 大規模科学計算システム

本センターでは,1986年に高性能計算センターとして活動を開始して以来,SX-1 (NEC製,0.57GFlop/s) から一貫して,主力計算システムとしてベクトル型スーパーコンピュータを導入し,最先端の学術研究を強力に支援,推進してきた.また,本センターは,全国共同利用型の情報基盤センターとしてだけでは無く,2013年度からはフラグシップシステムを中核とする全国の基盤センター等の計算機資源を連携した革新的ハイパフォーマンス・コンピューティング・インフラ(HPCI)の構成機関として,HPCIシステムの構築と多様なユーザニーズに応える高性能計算環境の整備にも取り組んでいる.

高速化支援活動の詳細説明に先立ち,本センターの大規模科学計算システムAOBAの概要を述べる.図2.2‑1に大規模科学計算システムを示す.AOBAはAOBA-S,AOBA-AおよびAOBA-Bの3つのサブシステムから構成される.AOBA-S (504ノード,21.05PFlop/s,504TB) は2023年8月より本格運用されており,NEC製SX-Aurora TSUBASAベクトル型スーパーコンピュータを採用している.AOBA-AおよびAOBA-Bはいずれも2020年10月に運用開始しており, AOBA-A (72ノード,1.48PFlop/s,45TB) はAOBA-Sと同じくSX-Aurora TSUBASAを採用している. AOBA-B (68ノード,278.5TFlop/s,17TB) はNEC製LX406Rz-2スカラ型並列コンピュータである.主力システムはその規模が示すとおりAOBA-Sであり,主にユーザが自ら開発した大規模シミュレーションコードの実行を担っている.一方,ベクトル型アーキテクチャに適さないアプリケーションや,汎用・商用のアプリケーションの実行にはAOBA-Bが活用される.AOBA-Bには,ポスト処理等のためにスカラ型並列コンピュータと密に連携が必要なアプリケーションのために,小規模なベクトル型スーパーコンピュータであるAOBA-Aが付随している.

_images/Fig2.2-1.png

図2.2‑1 本センターの大規模科学計算システム

各サブシステムの概要は次の通りである.AOBA-Sは504ノードのSX-Aurora TSUBASAシステムから構成され,各ノードは8基の第3世代NEC製ベクトルエンジンを搭載している.ベクトルエンジンはPCI Expressカードとして実装されたベクトルプロセッサであり,1基あたり4.9TFlop/sの理論演算性能および2.45TB/sのメモリ帯域幅を備える.ホスト側には,64コアのAMD EPYC 7763プロセッサおよび256GBのメモリを備えている.AOBA-Sサブシステムの理論演算性能は21.05PFlop/s,総メモリバンド幅は9.97PB/s,総メモリ容量は504TBに達し,大規模シミュレーションを可能にしている.ノード間はInfiniBand NDRインターコネクトによって相互接続しており,同インターコネクトには4.5PBのLustreストレージも接続されている.

AOBA-Aは72ノードのSX-Aurora TSUBASAシステムであり,1ノードあたり8基の第2世代ベクトルエンジンを搭載し,ホスト側には24コアのAMD EPYC 7402Pプロセッサおよび256GBのメモリを備えている.スカラ型並列コンピュータ AOBA-Bは,64コアのAMD EPYC 7702プロセッサおよび256GBのメモリを搭載している.AOBA-AとBはInfiniBand HDRインターコネクトによって結合しており,AOBA-Aで得られたシミュレーション結果をAOBA-Bで可視化するなど,ベクトルとスカラを連携させたワークフロー処理を実現することが可能である.両サブシステムは2PBのScaTeFSストレージを共有している.

2.3. 高速化推進研究活動

本センターでは1997年より,ユーザアプリケーションの高精度化,大規模化の支援を目的とした共同研究制度を施行している.計算科学を専門とする利用者と計算機科学を専門とするセンター教職員が連携して,アプリケーションの高速化に取り組んでいる.また,本センターでは社会貢献の一環として,サイバーサイエンスセンター共同研究制度の他に,産学連携共同研究に基づく民間利用制度も実施しており,学術分野のみならず産業のイノベーション創出にも貢献してきた.また,本センターは,全国共同利用型の情報基盤センター群と連携して学際大規模情報基盤共同利用・共同研究拠点(JHPCN)を形成し,2010年度にネットワーク型共同利用・共同研究拠点として文部科学大臣の認定を受け,超大規模計算機と超大容量のストレージおよび超大容量ネットワークなどの情報基盤を用いてグランドチャレンジ的な問題について,学際的な共同利用・共同研究を実施している.2013年度からは,フラグシップシステムを中核とする全国の基盤センター等の計算機資源を連携した革新的ハイパフォーマンス・コンピューティング・インフラ(HPCI)資源提供機関としても活動しており,HPCI採択課題における共同研究を実施している.

図2.3‑1に各共同研究の対象領域を示す.サイバーサイエンスセンター共同研究は,研究室レベルから本センターに代表される情報基盤センターのスーパーコンピュータで実行されるシミュレーションコードを対象としており,JHPCN共同研究はスーパーコンピュータを中心としたシミュレーション規模の研究課題を対象としている.HPCI公募研究はスーパーコンピュータ「富岳」に代表されるフラグシップシステム,もしくはそれに準ずる規模のシミュレーションコードを取り扱う課題である.

_images/Fig2.3-1.png

図2.3‑1 共同研究制度とシミュレーション規模

図2.3‑2に1999年から本センターで取り組んでいる共同研究数の推移を示す.この図を見ても分かる通り,サイバーサイエンスセンター共同研究は恒常的に年10件程度実施されていることに加えて,近年,JHPCN,HPCIを介した共同研究数が増加していることが確認できる.これは,サイバーサイエンスセンター共同研究を通してユーザアプリケーションが高度化・大規模化し,JHPCNあるいはHPCI採択課題へとステップアップしているためであり,われわれの継続的な高速化支援活動が一定の成果を挙げていることがわかる.また,継続的な産学連携に基づく共同研究を実施し,その成果を広く社会に還元している.

_images/Fig2.3-2.png

図2.3‑2 共同研究数の推移

また,近年では科学研究のみならず,社会基盤としてスーパーコンピュータの在り方に関する検討も精力的に進めている.東北大学災害科学国際研究所,NEC他と本センターの共同研究においては,津波浸水被害予測システムの開発に成功した.図2.3‑3に示す本システムでは,地震情報の自動取得と津波発生・伝播・浸水・被害予測,結果の可視化・配信をリアルタイムで行うことで,いつ津波が発生しても迅速な浸水被害予測を可能にしている.また,本システムは内閣府総合防災情報システムの一機能として採用され,南海トラフ地震への備えとして,鹿児島県から静岡県までの6,000kmの海岸線を対象に2018年4月1日より実運用を開始しており,我が国の津波防災対策・対応の高度化と国土強靱化に貢献している.2022年度にはさらにシミュレーション領域を拡大し,太平洋側13,000kmおよび日本海側2,700kmの計15,700kmの海岸線を対象としている.

三井共同建設コンサルタント株式会社との共同研究においては,水災害・リスクマネジメント国際センター (ICHARM) が開発した降雨流出氾濫モデル (Rainfall-Runoff-Inundation, RRI) モデルの高速化および並列化に取り組んだ.RRIモデルは,従来のモデルでは独立に行われていた降雨による河川への流出現象の解析と,流出による氾濫現象の解析を一体的に行い,精度の高い氾濫予測を可能にする.一方,RRIモデルを広域に適用する場合,計算時間が大きな課題となっていた.本共同研究では, SX-Aurora TSUBASAを対象としてRRIモデルの高速化・並列化を実施し,大幅な高速化を実現した.本成果は,リアルタイムの予測降雨データを元に河川の水位や氾濫量を予測する氾濫予測システムの開発に活かされ,水害対策に貢献している.

また,名古屋工業大学,日本気象協会と本センターの共同研究により,気象予報と人体の個体差を考慮した熱中症リスク評価システムを開発した.近年,今後の超高齢化社会の到来と加速する地球温暖化と相まって更なる搬送者数の上昇が予想されるなど,「熱中症」への取り組みが社会的関心事となっている.開発した熱中症リスク評価システムは,組織数51,解像度1mmの人体モデルを用いて人体の体温変化を気象(温度・湿度・日光照射量等),性別・年齢・体重・身長の違いによる体温上昇,発汗の相違など工学・物理学的な見地から熱中症発症リスクを評価可能にしている.これら成果は,図2.3‑4に示す様に,日本気象協会推進「熱中症ゼロへ」の公式サイトにて個人ごとの熱中症の危険度を簡易的に診断する『熱中症セルフチェック』 (https://www.netsuzero.jp/selfcheck) を通して,熱中症低減に向けた啓発活動に活用されている.

_images/Fig2.3-3.png

図2.3‑3 津波浸水被害予測システム

_images/Fig2.3-4.png

図2.3‑4 熱中症セルフチェック

2.4. 大規模科学計算システムの研究開発

本センターでは,高速化支援活動を通して得られたアプリケーションに関する臨床学的知見を本センターで運用している大規模科学計算システムの設計にフィードバックさせるべく,高性能計算システム設計に関する研究をマイクロアーキテクチャ,システムソフトウェアレベルの研究開発に精力的に取り組んでいる.次期大規模科学計算システム開発の要素技術としては,次世代ベクトルプロセッサ・システムの開発,高性能低消費電力を実現するメモリサブシステムに関する研究開発,再構成可能ハードウェアを活用した科学技術計算,性能可搬性を支援するプログラミングモデル,高効率運用のためのジョブスケジューリング機構に関する研究を推進した.

これらの研究成果は,学術論文誌や,SC,ISC,COOL Chips等のスーパーコンピュータや,コンピュータ設計に関する国際会議の論文として毎年発表しており,国内外から高く評価されている.また,スーパーコンピュータのシステムの運用に関しても,外気導入や室温管理機構の改善や,SX-Aurora TSUBASAが具備する低消費電力モードを適材適所で活用する技術の開発にも取り組み,高い稼働率,システムスループットを維持しながら,大幅な運用コストの削減を実現している.

あわせて2006年より,ドイツシュトゥットガルト計算センター (HLRS) と共同で毎年2回高性能計算に関する国際ワークショップ (Workshop on Sustained Simulation Performance) の開催,SCや関連する国際会議におけるブース展示(図2.4‑1)において,本センターの研究活動の成果を国内外に発信している.

_images/Fig2.4-1.png

図2.4‑1 SC22におけるブース展示

これらの国内外で高く評価されている成果はいずれも,利用者・本センターの教職員・NECの技術者が密に連携した高速化支援体制・共同研究体制が礎になっている.特に,高速化支援を遂行するためには,研究目的はもちろんその内容,利用者プログラムの計算アルゴリズムとデータ構造も熟知する必要がある.このために,利用者との打ち合わせを重ね,本研究に携わる者がこれらを理解し,大規模科学計算システムに適したアルゴリズム,プログラミング,データ構造について提案し,ユーザである計算科学者との共同研究を推進してきた.今後も将来の計算シミュレーションによるサイエンスの進歩,イノベーションの創出を加速するためにも,高速化推進研究活動に真摯に取り組んでいく所存である.

2.5. まとめ

本章では,1997年より取り組んでいる高速化推進活動の取り組みと成果について述べた.これらの2018年12月から現在に至るまでの高速化推進研究活動報告については,本報告書第3章以降に詳細に説明する.最後に本高速化推進研究活動は,利用者の協力なしには為し得ない.ここにあらためて感謝の意を表する.