Mercurial > hg > Papers > 2021 > mk-thesis
annotate paper/chapter/system_renew.tex @ 44:2896b33987c6
add slide
author | Ken Miyahira <e175733@ie.u-ryukyu.ac.jp> |
---|---|
date | Tue, 09 Feb 2021 20:03:18 +0900 |
parents | a967cf51ba92 |
children |
rev | line source |
---|---|
39 | 1 \chapter{教育情報システムの構築} |
5 | 2 |
17 | 3 本コースでは5年ごとにシステム更新をしており, 2020年9月にシステム更新が行われた。 |
4 | |
5 | 5 \section{旧システム} |
21 | 6 旧システムは, KVMを利用したVMベースのシステムを構築していた。 |
7 VMは本コースのWebやDNS等の基幹システムや, 学生が演習や研究用で利用できる貸出VMで利用されていた。 | |
17 | 8 そのため, 利用者が必要とする十分なスペックを提供するため, 表\ref{tb:oldserver}のスペックの汎用サーバを4台導入した。 |
9 \begin{table}[H] | |
10 \begin{center} | |
11 \caption{旧システムの物理サーバ} | |
12 \begin{tabular}{|c|c|} \hline | |
13 CPU & Intel Xeon E5-2699 v3 (2.30GHz/18Core) \\ \hline | |
18 | 14 CPUユニット数 & 2 \\ \hline |
17 | 15 メモリ & 768GB\\ \hline |
18 | 16 HDD & 600GB \\ \hline |
17 | 17 \end{tabular} |
18 \label{tb:oldserver} | |
19 \end{center} | |
20 \end{table} | |
21 | |
19
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
22 次にVMのイメージを保存するために表\ref{tb:oldsandisk}のストレージを2台導入した。 |
18 | 23 ハードディスクドライブの故障が想定されるため, RAID6を採用し信頼性及び可用性の向上を行った。 |
24 ストレージと汎用サーバとの接続プロトコルはiSCSIを採用した。 | |
21 | 25 KVMは標準でライブマイグレーションに対応している。 |
26 そこで, クラスタファイルシステムとして利用可能なファイルシステムである, GFS2を採用した。 | |
17 | 27 |
28 \begin{table}[H] | |
29 \begin{center} | |
30 \caption{旧システムのSAN用ストレージ} | |
31 \begin{tabular}{|c|c|} \hline | |
32 HDD & SAS 1.2TB x 24 \\ \hline | |
18 | 33 回転数 & 15000rpm \\ \hline |
17 | 34 RAID & 6 \\ \hline |
18 | 35 実行容量 & 19.7TB \\ \hline |
17 | 36 \end{tabular} |
37 \label{tb:oldsandisk} | |
38 \end{center} | |
39 \end{table} | |
40 | |
19
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
41 最後にシステムのバックアップを行うために表\ref{tb:olddisk}の大容量ストレージを2台導入した。 |
18 | 42 大容量ストレージには本コースのWebやデータベース, ユーザのホームディレクトリなどを月に一度バックアップを行う。 |
43 | |
17 | 44 % こいつ...もしかしたら Netgea ???? |
45 \begin{table}[H] | |
46 \begin{center} | |
47 \caption{旧システムの汎用ストレージ} | |
48 \begin{tabular}{|c|c|} \hline | |
49 HDD & SAS 4.0TB x 24 \\ \hline | |
18 | 50 回転数 & 7200rpm \\ \hline |
17 | 51 RAID & 6 \\ \hline |
18 | 52 実行容量 & 68.5TB \\ \hline |
17 | 53 \end{tabular} |
54 \label{tb:olddisk} | |
55 \end{center} | |
56 \end{table} | |
57 | |
18 | 58 \subsection{旧システムの問題点} |
59 | |
60 旧システムでは, 学生が演習などで利用できる環境として貸出VMのみであった。そのため以下のような問題が生じた。 | |
61 | |
62 \begin{itemize} | |
63 \item 仮想環境の貸出サービスにおいて, 新しく仮想環境を立ち上げるにはシステム管理チームへ申請が必要であった。 | |
64 そのため, 一部学生は申請の方法が分からなかったり, 貸出サービスがあることが周知されていなかったため, 旧システムのリソースが余っていた。 | |
65 \item 機械学習の演習ではGPUが求められる。だが, 旧システムにはGPUが搭載されていないため, 要求されるリソースを提供できない。 | |
66 そのため, 貸出サービスではなく研究室ごとの機器が多く利用された。 | |
67 \end{itemize} | |
68 | |
17 | 69 % 簡単に 1ページ未満にしよう |
18 | 70 % 無理でした ^_^;) |
5 | 71 |
72 \section{新システム} | |
19
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
73 新システムでは, 表\ref{tb:newserver}の汎用サーバを4台採用した。 |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
74 旧システムのストレージはHDDであったが, SSDの大容量化, 低価格化によりSSDを搭載した。 |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
75 また, 演習や研究等で利用できるようGPUも搭載した。 |
5 | 76 |
17 | 77 \begin{table}[H] |
78 \begin{center} | |
79 \caption{新システムの物理サーバ} | |
80 \begin{tabular}{|c|c|} \hline | |
81 CPU & Intel Xeon Gold 6238 (2.10GHz/22Core) \\ \hline | |
18 | 82 CPUユニット数 & 2 \\ \hline |
83 GPU & Nvidia Tesla V100S \\ \hline | |
17 | 84 メモリ & 512GB\\ \hline |
18 | 85 SAS SSD & 5TB \\ \hline |
86 NVMe SSD & 1.5TB \\ \hline | |
17 | 87 \end{tabular} |
88 \label{tb:newserver} | |
89 \end{center} | |
90 \end{table} | |
91 | |
19
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
92 次にユーザのデータなどを補完するために, 表\ref{tb:newdiskserver}のストレージサーバを2台採用した。 |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
93 2台のストレージサーバにはCephを構築するため, RAIDを構成せず利用する。 |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
94 そのため, 旧システムでは全体容量が40TBだったが, 新システムでは90TBと増加した。 |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
95 |
17 | 96 \begin{table}[H] |
97 \begin{center} | |
98 \caption{新システムのストレージサーバ} | |
99 \begin{tabular}{|c|c|} \hline | |
100 CPU & Intel Xeon Silver 4208\\ \hline | |
18 | 101 メモリ & 32GB \\ \hline |
17 | 102 SAS HDD & 300GB/15000rpm x 2 \\ \hline |
18 | 103 NLSAS HDD & 4TB/7200rpm x 12 \\ \hline |
17 | 104 \end{tabular} |
105 \label{tb:newdiskserver} | |
106 \end{center} | |
107 \end{table} | |
108 | |
5 | 109 % 構成の図貼る |
110 % 機器のスペックもありるれろ | |
111 | |
19
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
112 \subsection{仮想環境} |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
113 旧システムはVMベースで構築しており, 利用できる学習環境は主に貸出VMである。 |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
114 新システムでも貸出VMを行うが, VMとGPUが1対1の関係になるため, GPU希望する利用者全てに割り当てることができない。 |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
115 また, VMでは起動に時間がかかったり, VMを立てるごとに環境構築が必要となり利用者の手間を取らせることになる。 |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
116 そこで, アプリケーションの実行環境として採用されているコンテナ技術を利用する。 |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
117 \par |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
118 システムは学生や教授などが利用するため, マルチユーザで利用できるコンテナエンジンが必要となる。 |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
119 そのため, コンテナエンジンにはPodmanとSingularityを採用する。 |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
120 Podmanは開発段階でもあるため一部機能が不安定だったり, 設定が上書きされる場合がある。 |
20
cfe8f0abdacb
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
19
diff
changeset
|
121 管理するシステム管理チームの学生の教育には適しているが, 演習や研究用で利用するには適さない場合がある。 |
19
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
122 そのため, HPC環境に設計されているSingularityも同時に利用する。 |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
123 また, 4台のサーバのリソースを効率よく利用するためにジョブスケジューラのSlurmを採用する。 |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
124 Slurmではユーザのホームディレクトリがクラスタで共有されている必要があることから, 単一ファイルベースのイメージを利用できるSingularityはSlurmとの相性が良い。 |
5 | 125 |
19
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
126 \subsection{ファイルシステム} |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
127 旧システムではVMのイメージをクラスタファイルシステムであるGFS2に保存し運用していた。 |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
128 このGFS2の運用には別途クラスタを構成する必要があるため, 単一障害が発生により多くのサービスに影響を与えることがあった。 |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
129 また, ユーザのホームディレクトリもVMでGFS2をマウントしNFSで提供されていた。 |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
130 そのため, NFSを提供するVMが停止することでユーザへの影響があった。 |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
131 そこで, 新システムではVMイメージの保存には汎用サーバのディスクドライブ, ユーザのホームディレクトリにCephを採用する。 |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
132 \par |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
133 新システムでは汎用サーバにSAS SSDが5TBと旧システムより多く搭載されている。 |
20
cfe8f0abdacb
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
19
diff
changeset
|
134 2台のサーバに演習や研究用で利用する貸出VMのイメージを保存し, 残り2台には本コースで利用しているサービスを提供するVMを保存する。 |
cfe8f0abdacb
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
19
diff
changeset
|
135 汎用サーバに保存することで, 単一障害時の影響を小さくすることができる。 |
19
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
136 Cephは自己修復と自己管理機能を持つため, 信頼性の高いファイルシステムとして利用できる。 |
20
cfe8f0abdacb
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
19
diff
changeset
|
137 そのため, ユーザのホームディレクトリを配置するファイルシステムとして利用する。 |
19
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
138 また, CephはObject Gateway, ブロックデバイス, POSIX互換のファイルシステムなど, 用途によって柔軟にアクセス方法を変更できる。 |
20
cfe8f0abdacb
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
19
diff
changeset
|
139 ブロックデバイスとしてアクセスすることでVMイメージのバックアップとしても利用できる。 |
5 | 140 |
19
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
141 \subsection{構成} |
20
cfe8f0abdacb
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
19
diff
changeset
|
142 新システムでは, 各サーバに演習や研究用で利用できるPodmanとSingularityを用い, ジョブスケジューラであるSlurmを用いて管理を行う。 |
cfe8f0abdacb
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
19
diff
changeset
|
143 汎用サーバ1台をSlurmのコントローラ/計算ノードとし, 残りは計算ノードとすることで, システムのリソースを最大限利用可能にする。 |
cfe8f0abdacb
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
19
diff
changeset
|
144 Cephはディスクサーバのみで構成するのではなく, 汎用サーバ3台をMON, MDSとすることで, 最大1台の障害を許容できるため, 利用者への影響を少なくできる。 |
19
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
145 これらの技術を用いて構成したシステム構成図を図\ref{fig:system}に示す。 |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
146 \begin{figure}[H] |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
147 \begin{center} |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
148 \includegraphics[width=150mm]{fig/system.pdf} |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
149 \end{center} |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
150 \caption{システム構成図} |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
151 \label{fig:system} |
1463825d6336
update system_renew
Ken Miyahira <e175733@ie.u-ryukyu.ac.jp>
parents:
18
diff
changeset
|
152 \end{figure} |