0
|
1 \chapter{分散フレームワーク Alice の評価} \label{chapter:chapter5}
|
11
|
2 この章では、Aliceを用いた実験方法等についてまとめ、第\ref{chapter:chapter4}章で行った効果の測定、先行研究であるFedarated Lindaとの性能比較を行い、評価を行なう。また、TreeVNCとAliceVNCの比較をコードの観点からも評価を行なう。
|
12
|
3
|
|
4 \section{並列環境の改善効果の測定}
|
|
5 第\ref{section:conçurrent}章 の分散環境における改善効果をbitonic sortによる実験によって測定を行なう。
|
11
|
6
|
12
|
7 \subsection{実験環境}
|
|
8 コア数が少ないマシンでは、同時に走るCode Segmentが少ないことから、メニコア環境で実験を行った。
|
|
9 \begin{table}[htbp]
|
|
10 \caption{実行環境の詳細}
|
|
11 \label{tb:MacPro}
|
|
12 \begin{center}
|
|
13 \begin{tabular} {|l|l|}
|
|
14 \hline
|
|
15 {\bf CPU}&Intel(R) Xeon(R) X5650 @2.67GHz\\
|
|
16 \hline
|
|
17 {\bf 物理コア数}&12\\
|
|
18 \hline
|
|
19 {\bf 論理コア数}&24\\
|
|
20 \hline
|
|
21 {\bf CPU キャッシュ}&12MB\\
|
|
22 \hline
|
|
23 {\bf Memory}&16GB\\
|
|
24 \hline
|
|
25 \end{tabular}
|
|
26 \end{center}
|
|
27 \end{table}
|
|
28 \subsection{実験結果}
|
|
29 100万の要素をもつ配列のSortにかかる時間を計測する。同時に走るCode Segmentが物理コア数と同じになるように、分割数は10個で行った。
|
|
30
|
|
31 \begin{table}[html]
|
|
32 \caption{bitonic sortの結果}
|
|
33 \label{tb:result3}
|
|
34 \begin{center}
|
|
35 \begin{tabular}{|l|l|l|}
|
|
36 \hline
|
|
37 & 改善前 & 改善後 \\
|
|
38 \hline
|
|
39 実行時間 (ms)& 199.38 & 184.64 \\
|
|
40 \hline
|
|
41 \end{tabular}
|
|
42 \end{center}
|
|
43 \end{table}
|
|
44
|
|
45 \section{分散環境の改善効果の測定}
|
|
46 第\ref{section:distribute}章 の分散環境における改善効果をリングトポロジーによる実験によって測定を行なう。
|
|
47 また、先行研究であるFederated Lindaとの比較も行なう。
|
|
48
|
|
49 \subsection{TORQUE Resource Manager を用いた実験方法}
|
|
50 分散環境の実験する際に、学科にある共用のブレードサーバーを用いた。TORQUE Resource Manager (\url{http://www.adaptivecomputing.com/products/torque.php})というジョブスケジューラーによって、他の利用者とのリソースが競合しないように管理されている。
|
|
51
|
|
52 \subsubsection {TORQUE Resource Manager}
|
11
|
53 TORQUE は、1台のマスターと複数台のスレーブで構成される。(図 \ref{fig:torque})
|
|
54 スレーブは、マスターへ現在の自身のリソースの利用状況を報告する。
|
|
55
|
|
56 \begin{figure}[htbp]
|
|
57 \begin{center}
|
12
|
58 \includegraphics[width=80mm]{images/torque.pdf}
|
11
|
59 \end{center}
|
|
60 \caption{TORQUE の構成}
|
|
61 \label{fig:torque}
|
|
62 \end{figure}
|
|
63
|
|
64 ユーザーはマスターを用いてTORQUEを利用する。ジョブを記述したシェルスクリプトを用意し、スケジューラーに投入する。投入するタイミングで、利用したいマシン台数、CPUコア数を指定することができる。(ソースコード \ref {src:torque})
|
|
65
|
|
66 TORQUE は、ジョブに必要なマシンが揃い次第、受け取ったジョブを実行する。
|
|
67
|
|
68 \begin{table}[html]
|
|
69 \lstinputlisting[label=src:torque, caption=10台(1台あたり4コア)で走らせる例]{source/Torque.sh}
|
|
70 \end{table}
|
|
71
|
10
|
72 \subsection{実験概要}
|
11
|
73 リングのトポロジーを構成し、メッセージが 100 周する時間を計り、1周あたりの平均時間を求める実験である。(図 \ref{fig:topologyring})
|
|
74
|
|
75 \begin{figure}[htbp]
|
|
76 \begin{center}
|
|
77 \includegraphics[width=110mm]{images/topologyring.pdf}
|
|
78 \end{center}
|
|
79 \caption{100周にかかる時間を計測し、1周あたりの平均時間を求める}
|
|
80 \label{fig:topologyring}
|
|
81 \end{figure}
|
|
82
|
|
83 実験では、トポロジーの構築時間は実験に含めてはいない。
|
|
84
|
10
|
85 \subsection{実験環境}
|
11
|
86 ブレードサーバー(表 \ref{tb:blade})上の仮想マシン(表 \ref{tb:virtual})による仮想クラスタ環境を用いて実験を行った。
|
|
87
|
10
|
88 \begin{table}[htbp]
|
11
|
89 \caption{ブレードサーバーの詳細}
|
|
90 \label{tb:blade}
|
10
|
91 \begin{center}
|
|
92 \begin{tabular} {|l|l|}
|
11
|
93 \hline
|
10
|
94 {\bf マシン台数}&8台\\
|
|
95 \hline
|
|
96 {\bf CPU}&Intel(R) Xeon(R) X5650 @ 2.67GHz\\
|
|
97 \hline
|
|
98 {\bf 物理コア数}&12\\
|
|
99 \hline
|
|
100 {\bf 論理コア数}&24\\
|
|
101 \hline
|
|
102 {\bf CPU キャッシュ}&12MB\\
|
|
103 \hline
|
|
104 {\bf Memory}&132GB\\
|
|
105 \hline
|
|
106 \end{tabular}
|
|
107 \end{center}
|
|
108 \end{table}
|
|
109
|
|
110 \begin{table}[htbp]
|
|
111 \caption{仮想クラスタの詳細}
|
11
|
112 \label{tb:virtual}
|
10
|
113 \begin{center}
|
|
114 \begin{tabular} {|l|l|}
|
|
115 \hline
|
11
|
116 {\bf マシン台数}&48台\\
|
10
|
117 \hline
|
|
118 {\bf CPU}&Intel(R) Xeon(R) X5650 @ 2.67GHz\\
|
|
119 \hline
|
|
120 {\bf 物理コア数}&2\\
|
|
121 \hline
|
|
122 {\bf 仮想コア数}&4\\
|
|
123 \hline
|
|
124 {\bf CPU キャッシュ}&12MB\\
|
|
125 \hline
|
|
126 {\bf Memory}&8GB\\
|
|
127 \hline
|
|
128 \end{tabular}
|
|
129 \end{center}
|
|
130 \end{table}
|
|
131
|
11
|
132 \subsection{実験結果}
|
|
133 \subsubsection{改善効果とFederated Lindaとの比較}
|
|
134 データのサイズは4KBで実験を行った。
|
|
135 \begin{figure}[htbp]
|
|
136 \begin{center}
|
|
137 \includegraphics[width=140mm]{images/compare.pdf}
|
|
138 \end{center}
|
|
139 \caption{4096 bytes のデータを 100 周させたときの 1 周にかかる平均時間}
|
|
140 \label{fig:compare}
|
|
141 \end{figure}
|
|
142
|
|
143 改善によって24\% ほど実行速度を改善することができた。また、改善後とFederated Lindaの比較では45台の場合、0.8ms 程、Aliceが遅い。
|
|
144 \subsubsection{no-tcp-delay有無の比較}
|
|
145 TCPはデフォルトで、Nagleアルゴリズムを使用している。Nagleアルゴリズムは、小さいパケットを集めてまとめて送信することで、送信するパケット数を減らし効率性をあげるアルゴリズムである。このアルゴリズムにより、実験結果に影響があるか調査した。
|
10
|
146
|
11
|
147 \begin{figure}[htbp]
|
|
148 \begin{center}
|
|
149 \includegraphics[width=140mm]{images/compareTcpDelay.pdf}
|
|
150 \end{center}
|
|
151 \caption{TCP\_NODELAYの有無の比較}
|
|
152 \label{fig:TcpNoDelay}
|
|
153 \end{figure}
|
|
154
|
|
155 図\ref{fig:TcpNoDelay}からTCP\_NODELAYにおける影響はないことがわかる。
|
|
156
|
12
|
157 \section{考察}
|
|
158
|
11
|
159 \section{TreeVNCとのCodeの比較}
|
|
160
|