Papers/2013/yuhi-sigos: paper/data

annotate paper/data_parallel.tex @ 3:bb436935f877

add images

author	Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
date	Mon, 01 Apr 2013 21:20:34 +0900
parents	771aaa69c616
children

rev	line source
1 764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	1 \section{Ceriumにおけるデータ並列}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	2 OpenCLで充分な並列度を得るには、データ並列による実行をサポートした方が良い。
2 771aaa69c616 commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: 1 diff changeset	3 ceriumでopenclのデータ並列を使うために、iteratorというAPIを用意した。
771aaa69c616 commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: 1 diff changeset	4
1 764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	5 ベンチマークをとるために、まずはCPU(many core)上でデータ並列の機構を実装した。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	6 OpenCLでデータ並列を行う際は、NDRangeの引数でワークアイテムのサイズを設定し、以下のようにkernelを書けばよい。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	7
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	8 \begin{verbatim}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	9 __kernel void
2 771aaa69c616 commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: 1 diff changeset	10 multi(__global const float *i_data1,
771aaa69c616 commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: 1 diff changeset	11 __global const float *i_data2,
771aaa69c616 commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: 1 diff changeset	12 __global float *o_data)
1 764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	13 {
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	14 int i = get_global_id(0);
2 771aaa69c616 commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: 1 diff changeset	15 o_data[i] = i_data1[i]*i_data2[i];
1 764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	16 }
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	17
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	18 \end{verbatim}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	19 kernelを複数生成し、各kernelは自分が担当するindexをget\_global\_id APIで取得し、
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	20 その部分だけ計算を行う。CPUで実行する場合もGPU実行時のkernelとなるべく近い形式で記述できるようにする。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	21
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	22 \subsection{データ並列実行の機構}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	23 データ並列で実行する場合はspawn APIではなく、iterate APIでtaskを生成すればよい。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	24 Scheduler内で引数分taskを生成し、それぞれに自分が担当するindexをパラメタとして設定していく。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	25 iterateにはlengthを引数として渡し、lengthの値と渡したlengthの個数でdimensionや
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	26 ワークアイテムのサイズをSchedulerが計算する。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	27 CPU実行時のkernelは以下のように記述する。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	28
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	29 \begin{verbatim}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	30 static int // kernel
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	31 run(SchedTask s,void rbuf, void *wbuf)
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	32 {
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	33 float indata1,indata2,*outdata;
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	34
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	35 indata1 = (float*)s->get_input(rbuf, 0);
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	36 indata2 = (float*)s->get_input(rbuf, 1);
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	37 outdata = (float*)s->get_output(wbuf, 0);
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	38
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	39 long i = (long)s->get_param(0);
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	40 outdata[i]=indata1[i]*indata2[i];
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	41 return 0;
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	42 }
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	43 \end{verbatim}
2 771aaa69c616 commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: 1 diff changeset	44
771aaa69c616 commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: 1 diff changeset	45 \subsection{Ceriumでのデータ並列におけるindex割り当ての実装}
1 764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	46 taskを生成するとき、dimensionとワークアイテムのサイズをもとに各taskが担当するindexを計算し、set\_paramする。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	47 kernelはget\_paramでそのindexを取得してデータ並列で実行する。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	48 get\_param APIがopenCLのget\_global\_id APIに相当する。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	49
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	50 例として、cpu数4、一次元で10個のdataにたいしてデータ並列実行を行った場合、
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	51 各CPUが担当するindexは表:\ref{table:data_parallel_index}のようになる。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	52
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	53 この例だと各CPUに対するindexの割り当ては、
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	54 CPU0はindex0、4、8、
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	55 CPU1はindex1、5、9、
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	56 CPU2はindex2、6、
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	57 CPU3はindex3、7となっている。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	58
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	59 \begin{tiny}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	60 \begin{table}[h]
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	61 \begin{center}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	62 \caption{data並列実行時のindexの割り当て}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	63 \label{table:data_parallel_index}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	64 \small
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	65 \begin{tabular}[t]{c\|\|c\|c\|c\|c}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	66 \hline
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	67 stage&CPU0& CPU1&CPU2&CPU3 \\
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	68 \hline
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	69 1&0&1&2&3 \\
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	70 \hline
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	71 2&4&5&6&7 \\
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	72 \hline
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	73 3&8&9& & \\
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	74 \hline
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	75 \end{tabular}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	76 \end{center}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	77 \end{table}
2 771aaa69c616 commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: 1 diff changeset	78
1 764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	79 \end{tiny}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	80 この実装により、Ceriumでデータ並列の実行が可能になった。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	81 並列プログラミングだと、並列化するtaskが全部同一であるという事は少なくない。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	82 その際、task生成部分を何回もループで回すことなく、簡単なsyntaxで記述できる。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	83
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	84 データ並列で実行する場合は、inputとoutputを各taskで共有するため、少ないコピーですむ。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	85 CPUならメモリ領域がtaskとmanagerで同じなので、dataのコピーで大きいオーバーヘッドにはならない。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	86 しかしCellとGPUはメモリ領域が異なるため、dataコピーのオーバーヘッドが大きく、
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	87 データ並列による高速化が見込める。

Mercurial > hg > Papers > 2013 > yuhi-sigos

annotate paper/data_parallel.tex @ 3:bb436935f877