view paper/benchmark.tex @ 8:cfc4347f4098 default tip

fin
author Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
date Sat, 27 Apr 2013 12:01:30 +0900
parents d880b0011932
children
line wrap: on
line source

\section{benchmark}\label{section:benchmark}
Bitonic Sortの例題を用いて計測した。入力として100,000要素の配列をsortする例題である。
これをGPUの比較対象としてマルチコアCPUで同様の例題の計測を行った。

実験環境
\begin{itemize}
\item OS : MacOS 10.8.2
\item CPU : 2*2.66GHz 6-CoreIntel Xeon
\item Memory : 16GB
\item Compiler : Apple clang version 4.1 (based on LLVM 3.1svn)
\item GPU : AMD ATI Radeon HD 5870 1024MB
\end{itemize}
この環境で実行したところ、CPUと比べてGPUの実行時間が100倍程かかることがわかった。
Bitonic sortはdataを分割してそれぞれに対して並列にsort(ここではQuick Sort)をかけて統合を繰り返すsortである。
(他に、Word count と FFT の例題を使用している)。

遅い理由としては OpenCL での build 時間が含まれていることが考えられる。また、ND range を実装してないので、
並列度が足りてないのも原因の一つだと思われる。

% 通常CPUに この結果はdataのinputに起因していると考えられる。
% GPUはメモリ空間がCPUと異なるため、host側で設定した値をkernelがそのまま読み込むことはできない。
% OpenCLが提供しているAPIでmemory Bufferを作成し、そこに値を書き込むことでkernelとhostで値を共有している。
メモリバッファによるコピーも要因の一つである。
そこで、一回に送信するdata 数(BLOCK SIZE)を増やしてベンチマークを行った。
表\ref{table:benchmark}が結果である。
\begin{table}[h]
\begin{center}
\caption{sortによるBenchmarkの結果}
\label{table:benchmark}
\small
\begin{tabular*}{60mm}[t]{c|r}
\hline
length& 100,000 \\
\hline\hline
1 CPU & 796 ms \\
\hline
2 CPU & 439 ms  \\
\hline
6 CPU & 153 ms  \\
\hline
12 CPU& 96 ms  \\
\hline
24 CPU& 89 ms  \\
\hline
\hline
GPU(改良前)& 330752 ms  \\
\hline
GPU(改良後)& 5306 ms\\
\hline
\end{tabular*}
\end{center}
\end{table}

まだCPUとの性能差は開いているが、10倍程速度が向上した。
Task並列ではなく、GPU側でもデータ並列の実行をサポートし、
BufferへのRead/Writeのパイプラインが上手く動作するように同期機構の見直しを行う事が今後の課題となる。