Papers/2013/yuhi-prosym: presen/index.html comparison

comparison presen/index.html @ 29:6b60c1277599 default tip

fix

author	Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
date	Sun, 12 Jan 2014 09:18:32 +0900
parents	d6d545336b5c
children

comparison

equal deleted inserted replaced

-:d6d545336b5c
+:6b60c1277599
 <slide>
 <hgroup>
 <h3>Kernelの記述</h3>
 </hgroup>
-<article>
 2つのinputDataの積を取り、outputDataに返す例題Multiply
 <table  border="0" cellpadding="0" cellspacing="0">
 <tbody>
 <tr>
 <td>
-<img src='images/kernel_description.png' style="width:650px">
+<img src='images/kernel_description.png' style="height:570px">
 </td>
 <td style="font-size:18pt;color:black">
 <p>
 Taskの処理自体はC/C++の形式なので、同じ記述が可能。
 </p>
 <p>
 引数の受け取り方が違う。
 <ul>
-<li>CPU</li>
+<li>CPU
-<dd>rbuf/wbufとしてDataをまとめて受け取っている</dd>
+<dd>rbuf/wbufとしてDataをまとめて受け取っている</dd></li>
-<li>GPU</li>
+<li>GPU
 <dd>1つ1つ個別の変数として受け取っている</dd>
-<dd>それぞれの変数にOpenCL独自の修飾子が必要</dd>
+<dd>それぞれの変数にOpenCL独自の修飾子が必要</dd></li>
 </ul>
 変数で受けるなどしてこの差異を吸収すれば、同じ記述が可能。
 </p>
 </td>
 </tr>
 </tbody>
 </table>
-<br>
-</article>
 </slide>
 <slide>
 <hgroup>
 </hgroup>
 <article>
 <table  border="0" cellpadding="0" cellspacing="0">
 <tbody>
 <tr>
-<td><img src='images/gpu_data_parallel.png' style="height:400px"></td>
+<td><img src='images/gpu_data_parallel.png' style="height:450px"></td>
 <td style="font-size:18pt;color:black">
 <p>
 タスク並列だと、タスクごとにinput data と output data を転送しなければならない
 </p>
 <p>
 </hgroup>
 <article>
 <table  border="0" cellpadding="0" cellspacing="0">
 <tbody>
 <tr>
-<td><img src='images/ndrange_arch.png' style="height:450px"></td>
+<td><img src='images/ndrange_arch.png' style="height:500px"></td>
 <td style="font-size:18pt;color:black">
 <p>
 データを2、3次元に分割し、分割した部分に対して
 同一のTaskを割り当て、並列に処理を行う並列化手法
 </p>
 </hgroup>
 <article>
 <p>
 input data を二倍してoutput data に返す例題
 </p>
-<pre class="prettyprint" data-lang="main.cc(Iterate Task 生成)">
+<img src="images/iterateTaskGen.png" height="250"></img>
-HTaskPtr twice = manager->create_task(Twice);
-twice->set_cpu(GPU);
-twice->set_inData(0,(memaddr)input, sizeof(float)*length);
-twice->set_outData(0,(memaddr)output, sizeof(float)*length);
-// paramに0~length-1(index)をsetしたtaskをlength個spawnする
-twice->iterate(length);
-</pre>
 <p>
 iterate(length)とすることで、TaskManagerがデータ並列用にTaskを生成
 </p>
 <p>
 この例だとlength個のTaskが生成され、各Taskに0~length-1までのID(index)を割り振る
 <slide>
 <hgroup>
 <h3>iterate(Kernel)</h3>
 </hgroup>
 <article>
-<pre class="prettyprint" data-lang="twice.cc(MultiCore)">
+<img src="images/source/iterate_kernel.png" height="300"></img>
-long i = (long)scheduler->x; // (long)scheduler->get_param(0);
-output[i]=input[i]*2;
-</pre>
-<pre class="prettyprint" data-lang="twice.cl(GPU)">
-long i = get_global_id(0);
-output[i]=input[i]*2;
-</pre>
 <p>
 MultiCoreではschedulerの持つメンバ変数x、OpenCLはget_global_idというAPIを用いて、
 自分に割り振られたid(index)を取得する。その後、そのindexに対して処理を行う。
 </p>
 <p>
 <slide>
 <hgroup>
 <h3>iterateの実装</h3>
 </hgroup>
 <article>
-<pre class="prettyprint" data-lang="HTask.cc">
+<img src="images/source/iterate.png" height="280"></img>
-void
+<p>渡されたlengthはwork item の要素数となる。</p>
-HTask::iterate(long x) {
-tl->dim=1;
-tl->x=x;
-// 1次元なのでy軸、z軸の要素数は1
-tl->y=1;
-tl->z=1;
-mimpl->spawn_task(this);
-}
-</pre>
-<p>渡されたlengthはwork item のx座標の要素数となる。</p>
 <p>taskにデータ分割のためのdata(dimension, や workitem size)をsetする。</p>
 <p>
 Schedulerはtaskが持ってるdataを元にtaskを複数生成し、idを割り当てる。
 </p>
 </article>
 <slide>
 <hgroup>
 <h3>iterateの実装(多次元)</h3>
 </hgroup>
 <article>
-<pre class="prettyprint" data-lang="HTask.cc">
+<img src="images/source/iterate_multidim.png" height="300"></img>
-void
-HTask::iterate(long x, long y) {
-tl->dim=2;
-tl->x=x;
-tl->y=y;
-tl->z=1;
-mimpl->spawn_task(this);
-}
-</pre>
 <p>
 引数を複数渡せば多次元のデータ分割ができる。3次元までサポートする。
 </p>
 </article>
 </slide>
 </hgroup>
 <br>
 <p>
 GpuSchedulerがOpenCLのAPIを呼び出し、GPUの制御を行う</p>
 <p>
-TaskManagerからTaskを受け取り、Command Queueにenqueueする
+TaskManagerから受け取ったTaskは必要なパラメータを各種持っている
 </p>
 <article>
-<pre class="prettyprint" data-lang="GpuScheduler.cc">
+<img src="images/source/GpuScheduler.png" height="120"></img>
-clEnqueueNDRangeKernel(command_queue, kernel[cur], task->dim, NULL,
-&task->x, &task->y, &task->z, NULL, NULL);
-</pre>
 <table  border="2" style="font-size:18pt;">
 <tbody>
 <h3 class="yellow">Taskの持つメンバ変数</h3>
 <tr>
 <td>dim</td>
 </tr>
 </tbody>
 </table>
 <br>
 <p>
-CPUとGPUの同時実行は、実行するTaskに対してset_cpu(SPE_ANY)とすれば良い
+CPUとGPUの同時実行は、実行するTaskに対してset_cpu(ANY_ANY)とすれば良い
 </p>
 <p>
 TaskはCPUとGPU、交互に割り振られる
 </p>
 </article>
 <slide>
 <hgroup>
 <h3>ベンチマーク</h3>
 </hgroup>
 <article>
-<table >
+<img src="images/bench_mark_hetero.png" height="350"></img>
-<tbody>
+<h3 class="yellow">結果</h3>
-<tr>
+<p>
-<td>
+現段階ではSchedulingを行ってないため、GPUやCPUを単体で動かした時よりも遅くなる。
-<img src="images/bench_mark_hetero.png" height="400"></img>
+</p>
-</td>
+<p>
-<td>
+CPUとGPUは実行速度に差が出る場合がある。
-<h3 class="yellow">結果</h3>
+Taskの計算内容によってはどちらかのアーキテクチャに任せた方が良い。
-<font size="5">
+それを確認するベンチマークを動かす。
-<p>
+</p>
-現段階ではSchedulingを行ってないため、GPU単体で動かした時よりも遅くなる。
+</font>
-</p>
+</article>
-<p>
+</slide>
-CPUとGPUは実行速度に差が出る場合がある。
-Taskの計算内容によってはどちらかのアーキテクチャに任せた方が良い。
-それを確認するベンチマークを動かす。
+<slide>
-</p>
+<hgroup>
-<p>
+<h3>ベンチマーク</h3>
+</hgroup>
-</p>
+<article>
-</font>
+<img src="images/bench_mark_each_task.png" height="350"></img>
-</td>
-</tr>
-</tbody>
-</table>
-</article>
-</slide>
-<slide>
-<hgroup>
-<h3>ベンチマーク</h3>
-</hgroup>
-<article>
-<img src="images/bench_mark_each_task.png" height="350"></img>
 <p>
 FFTはSpinFactやButterfly演算等、様々なTaskで構成されている。
 それぞれのTaskについて、実行時間を計測した。
 </p>
 <p>
-SpinFactのTaskに関しては、CPUの方が実行速度が早い。
+大体のTaskはGPUの方が速いが、SpinFactのTaskに関してはCPUの方が実行速度が速い。
 </p>
 </article>
 </slide>
 <slide>
 <tbody>
 <tr>
 <td>
 <img src="images/decide_weight.png" height="150"></img>
 </td>
-<td>
+<td style="font-size:18pt;color:black">
 並列実行するTaskをCPUとGPUで事前に一度実行し、実行時間を測定する。
 それぞれの実行時間の割合で重みをつける。
 </td>
 </tr>
 <tr>
 <td>
 <img src="images/select_arch.png" height="200"></img>
 </td>
-<td>
+<td style="font-size:18pt;color:black">
 <p>
 それぞれの重みからCPU実行とGPU実行のどちらに適しているか判断する
 </p>
 </td>
 </tr>
 <tbody>
 <tr>
 <td>
 <img src="images/decide_weight2.png" height="150"></img>
 </td>
-<td>
+<td style="font-size:18pt;color:black">
 全てのTaskがCPUの二倍、GPUの方が実行速度が早い場合
 </td>
 </tr>
 <tr>
 <td>
 <img src="images/select_arch2.png" height="180"></img>
 </td>
-<td>
+<td style="font-size:18pt;color:black">
 <p>
 それぞれのTaskを得意とするアーキテクチャに全て割り振るのではなく、
 RunTimeが最小になるように割り振る
 </p>
 </td>
 <li>CPUとGPUでのTaskの同時実行に対応</li>
 <li>同時実行時のTaskのScheduling手法の提案</li>
 </ul>
 <h3 class="yellow">今後の課題</h3>
 <ul>
-<li>提案したSchedulingの手法を実装・ベンチマーク</li>
+<li>提案したSchedulingの手法を実装/ベンチマーク</li>
 <li>ベンチマークに使用する例題の追加</li>
+<li>GPUのSchedulerにパイプライン機構の導入</li>
 </ul>
 </article>
 </slide>
 <!--

Mercurial > hg > Papers > 2013 > yuhi-prosym

comparison presen/index.html @ 29:6b60c1277599 default tip