7
|
1 \chapter{Many Core プログラミング} \label{chapter:manycore}
|
3
|
2
|
|
3 Many Core プログラミングは、一つのマシン内で複数のコアを扱う
|
|
4 プログラミングである。
|
|
5 本章では、Many Core プログラミングの要素や難しさを考察し、
|
4
|
6 並列プログラムの性能や信頼性を確保するための開発行程を述べる。
|
3
|
7
|
|
8 \section{定常的な並列度の必要性}
|
|
9
|
|
10 並列実行には Amdahl 則 \cite{amdahl} があり、使用する CPU を増やしても、
|
|
11 元のプログラムの並列化率が低ければ、
|
|
12 その性能を生かすことは出来ないとされている。
|
|
13 例えば、プログラムの8割を並列化したとしても、6 CPU で 3 倍程度の
|
|
14 性能向上しか得られない (\figref{amdahl}) 。
|
|
15
|
|
16 \begin{figure}[htb]
|
|
17 \begin{center}
|
|
18 \includegraphics[scale=0.8]{./images/amdahl.pdf}
|
|
19 \end{center}
|
|
20 \caption{Amdahl 則}
|
|
21 \label{fig:amdahl}
|
|
22 \end{figure}
|
|
23
|
4
|
24 このことから、恒常的に並列度を維持する必要がある。
|
3
|
25 このため、逐次型プログラムの一部を並列化するという手法では不十分である。
|
|
26 LSI などのハードウェアの場合は、演算の対象がもともと多量の演算と
|
|
27 データパスを持つので、並列計算の効果を定常的に得られることが多い。
|
|
28 しかし、C 等で記述されたプログラムでは、for 文や配列のアクセス等に
|
|
29 並列性が隠されてしまい、それを引き出すことが難しい。
|
|
30
|
|
31 \subsection{プログラムとデータの分割}
|
|
32
|
|
33 プログラムの中の並列度は、主に二つの形で取り出すことができる。
|
|
34
|
|
35 \begin{itemize}
|
4
|
36 \item データ並列 \\
|
|
37 配列や木の中の個々の要素に対して並列に実行する (\figref{manycore_data_split})
|
3
|
38 \item パイプライン処理 \\
|
|
39 複数の逐次処理の隣通しを重ねて実行する
|
|
40 \end{itemize}
|
|
41
|
|
42 \begin{figure}[htb]
|
|
43 \begin{center}
|
|
44 \includegraphics[scale=0.7]{./images/manycore_data_split.pdf}
|
|
45 \end{center}
|
|
46 \caption{データ並列}
|
|
47 \label{fig:manycore_data_split}
|
|
48 \end{figure}
|
|
49
|
|
50 この二つを同時に用いることで、定常的な並列度を維持することが
|
|
51 可能となることがある。パイプライン処理は、
|
|
52 主にプログラム中で階層的に使われることが多い。
|
|
53
|
|
54 データ並列とパイプライン処理を可能にするためには、プログラムとデータの適切な
|
|
55 分割を行う必要がある。for 文、あるいは木を辿って処理する個々の
|
|
56 ステートメントがプログラムの分割の対象となる。
|
|
57 このとき、データは自明に分割できるわけではなく、
|
|
58 分割できるデータ構造を採用し、必要ならばコピーを行う。
|
|
59
|
|
60 \subsection{Cell に置けるデータ分割}
|
|
61 分割されたデータは、通常メインメモリ上に置かれるが、
|
|
62 Cell の場合は、SPE の LS 上に置かれることになる。
|
|
63 メインメモリ上で計算を行う逐次型プログラムと異なり、
|
|
64 コピーのコストを払ってでもデータを分割し、
|
|
65 複数の CPU で独立に処理する必要がある。特に、DMA 中心のアクセスになる
|
|
66 Cell の場合は、コピーしやすいように、数 K byte 毎の配列にする方が
|
|
67 良い。
|
|
68
|
|
69 さらに、Cell は SPE Program コードも LS 上に置かれるため、
|
|
70 コードをロードする仕組みも必要になる。
|
|
71 256KB という SPE の少ないメモリ領域を補うため、
|
|
72 Cell には SPE コードのオーバーレイ機能 \cite{cell_sdk} がある。
|
|
73 オーバーレイとは、メモリ上の実行プログラムの一部を他のコードと
|
|
74 置き換えながら実行する手法だが、
|
|
75 コードを置き換える時に SPE 自体が止まってしまうので、好ましくない。
|
|
76 そのため、明示的に DMA でコードをロードする必要がある。
|
|
77
|
|
78 \section{同期}
|
|
79 ここで言う同期とは、複数の CPU がデータの待ち合わせ、または、
|
|
80 整合性を維持するために、他の CPU との待ち合わせを行うことである。
|
|
81
|
|
82 Many Core では、待ち合わせを行うと並列度が下がってしまうので、
|
|
83 同期自体を減らす必要がある。
|
|
84 そのためには、各 CPU が独立に (ロック無し) でデータにアクセス
|
|
85 できる様にデータを分割すれば良い。
|
|
86 Cell の場合は SPE の LS 上 にコピーすることになる。
|
|
87 しかし、SPE はメインメモリからデータを取得する必要があるので、
|
|
88 取得の際には同期を取る必要がある。
|
|
89 Cell の場合は PPE と SPE 間の同期に関しては、
|
|
90 \ref{sec:cell_mailbox} 節で述べた Mailbox を使用する。
|
|
91 メッセージ交換なので、待ち合わせを避けることが可能である。
|
|
92
|
|
93 \section{デバッグ}
|
|
94 並列プログラムの特徴として、デバッグが難しいことも挙げられる。
|
|
95 実行が非決定的 (同じ状態で実行しても結果が異なる) な場合があり、
|
|
96 バグの状態を再現することが難しい。
|
|
97 また、個々の Core 上のデータを調べる必要があり、
|
|
98 デバッガが複数の Core を取り扱えることが必須である。
|
|
99 Cell の場合、動作している複数 の SPE の一つに対して
|
|
100 gdb で breakpoint を掛ければ、PPE や他の SPE も同時にストップするが、
|
|
101 それら全ての CPU を手動で管理するのは厳しい。
|
|
102 また、PPE と SPE ではメモリ空間が違うため、
|
|
103 SPE から直接 PPE のデータを見ることができない。
|
|
104
|
|
105
|
|
106 \section{並列プログラムの開発行程} \label{sec:manycore_step}
|
|
107 並列プログラミングでは、以下の段階において、
|
|
108 それぞれ実装とテストを行う (\figref{manycore_step}) 。
|
|
109
|
|
110 \begin{enumerate}
|
|
111 \item C によるシーケンシャルな実装 \label{step1}
|
|
112 \item 並列実行を考慮したデータ構造を持つ実装 \label{step2}
|
|
113 \item コードを分割し、シーケンシャルに実行する実装 \label{step3}
|
|
114 \item 分割したコードを並列実行する実装 \label{step4}
|
|
115 \end{enumerate}
|
|
116
|
|
117 \begin{figure}[htb]
|
|
118 \begin{center}
|
|
119 \includegraphics[scale=0.8]{./images/manycore_step.pdf}
|
|
120 \end{center}
|
|
121 \caption{並列プログラムの開発行程}
|
|
122 \label{fig:manycore_step}
|
|
123 \end{figure}
|
|
124
|
|
125 段階 \ref{step1} の実装では、プログラムのアルゴリズムの信頼性を確認するために
|
|
126 用いる。
|
|
127
|
|
128 段階 \ref{step2} の実装では、コードを分割した際、そのコードが使用できるような
|
|
129 データ構造への変換が必要になり、段階 \ref{step1} と同じ結果が
|
|
130 得られるかどうかを検証する。
|
|
131
|
|
132 段階 \ref{step3} の実装では、並列実行を意識したコードの分割を行う。
|
|
133 この段階まではアーキテクチャに依存しないので、
|
|
134 ターゲットが開発途中の段階でも記述することが可能である。
|
|
135 また、実行が決定的 (入力に対して出力が一意に決まる) であるため、
|
|
136 テストは容易である。
|
|
137 シーケンシャルな実装であるため、デバッグも二分法により容易に行うことが出来る。
|
|
138
|
|
139 段階 \ref{step4} の実装では、段階 \ref{step3} で分割したコードを
|
|
140 実際に並列に動かす。段階 \ref{step3} までが動いていれば
|
|
141 問題なくそのまま動作すると期待される。問題が発生した場合、
|
|
142 その原因と思われる部分を見つけ、一度段階 \ref{step3} に戻した後、
|
|
143 前後のコードと合わせて
|
|
144 入出力データのチェックなどのテストをしていくことが必要となる。
|
|
145 これにより、問題がプログラムのアルゴリズムなのか、
|
4
|
146 並列実行したことによるデータの整合性の問題(同期、データ送受信のずれなど)か
|
|
147 などを判定することができる。
|
3
|
148
|
|
149 並列プログラミングでは、以上の段階毎に
|
|
150 信頼性を確かめながら開発を行っていくことになる。
|
|
151
|
|
152 第 \ref{chapter:taskmanager} 章から説明する TaskManager は、
|
|
153 以上の開発行程をサポートしたフレームワークとなる。
|