グリッド・クラスターコンピューティング技術

多数のコンピュータを群として組むクラスターコンピューティングは、今後のスーパーコンピューティングの基本トレンドです。クラスタ監視、負荷分散、ジョブマイグレーションなどの構成技術を次々に集積し、次世代コンピューティングの基本ソフトウェア開発を担う力量の保持に務めています。

また、インターネットを経由する不特定多数の端末の参加を可能にする、広範でヘテロな環境におけるグリッドミドルウェアの研究開発など、グリッドコンピューティング技術への取り込みも行っています。

開発者コメント

グリッドコンピューティング

グリッド資源予約システム

グリッドの持つ計算機資源を予約・管理するための統一的なインターフェースを提供する。本システムの主な機能としては、予約サービスと資源設定サービスがある。
予約サービスは、Sun Grid Engine等、予約サービスを持たないジョブ管理システムを運用しているクラスタに資源予約機能を提供するサービスである。
資源設定サービスは、最大利用時間や予約優先度等の計算機資源提供条件を、クラスタ管理ポリシーに応じて任意に設定できるサービスである。

クラスタ情報サービス

グリッドを構成する各クラスタの情報を集め、それを集約するサービス。
集める情報には、ユーザー共通情報とユーザー固有情報の2種類あり、このうちユーザー固有情報は、グリッド用ミドルウェアGlobusのセキュリティ機能を活用して、他のユーザーは見られない構造になっている。

checkpoint

プロセスをファイルに保存する。クラスタ計算機ではたくさんのPCをつかって計算するので故障率が高い。
耐故障性向上のためチェックポイントが使われることが多い。
大規模計算だとプロセスサイズが数GBになるのは普通でチェックポイントファイルも数GBのものが並列プロセスの数だけ作成される。
もしチェックポイントファイルの置き場所がNFS上だととんでもないことに。Lustreを採用しているTUBAMEではどうなっているのかなぁ?