Papers/2013/yuhi-sigos: paper/benchmark.tex annotate

annotate paper/benchmark.tex @ 1:764783c403bd

commit

author	Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
date	Mon, 01 Apr 2013 19:09:39 +0900
parents
children	d880b0011932

rev	line source
1 764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	1 \section{benchmark}\label{section:benchmark}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	2 \subsection{ベンチマーク}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	3 Bitonic Sortの例題を用いて計測した。入力として100,000要素の配列をsortする例題である。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	4 これをGPUの比較対象としてマルチコアCPUで同様の例題の計測を行った。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	5
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	6 実験環境
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	7 \begin{itemize}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	8 \item OS : MacOS 10.8.2
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	9 \item CPU : 2*2.66GHz 6-CoreIntel Xeon
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	10 \item Memory : 16GB
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	11 \item Compiler : Apple clang version 4.1 (based on LLVM 3.1svn)
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	12 \item GPU : AMD ATI Radeon HD 5870 1024MB
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	13 \end{itemize}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	14 この環境で実行したところ、CPUと比べてGPUの実行時間が100倍程かかることがわかった。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	15 Bitonic sortはdataを分割してそれぞれに対して並列にsort(ここではQuick Sort)をかけて統合を繰り返すsortである。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	16 (他に、Word count と FFT の例題を使用している)。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	17
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	18 遅い理由としては OpenCL での build 時間が含まれていることが考えられる。また、ND range を実装してないので、
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	19 並列度が足りてないのも原因の一つだと思われる。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	20
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	21 % 通常CPUにこの結果はdataのinputに起因していると考えられる。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	22 % GPUはメモリ空間がCPUと異なるため、host側で設定した値をkernelがそのまま読み込むことはできない。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	23 % OpenCLが提供しているAPIでmemory Bufferを作成し、そこに値を書き込むことでkernelとhostで値を共有している。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	24 メモリバッファによるコピーも要因の一つである。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	25 そこで、一回に送信するdata 数(BLOCK SIZE)を増やしてベンチマークを行った。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	26 表\ref{table:benchmark}が結果である。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	27 \begin{table}[h]
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	28 \begin{center}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	29 \caption{sortによるBenchmarkの結果}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	30 \label{table:benchmark}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	31 \small
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	32 \begin{tabular*}{60mm}[t]{c\|r}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	33 \hline
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	34 length& 100,000 \\
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	35 \hline\hline
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	36 1 CPU & 796 ms \\
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	37 \hline
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	38 2 CPU & 439 ms \\
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	39 \hline
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	40 6 CPU & 153 ms \\
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	41 \hline
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	42 12 CPU& 96 ms \\
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	43 \hline
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	44 24 CPU& 89 ms \\
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	45 \hline
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	46 \hline
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	47 GPU(改良前)& 330752 ms \\
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	48 \hline
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	49 GPU(改良後)& 5306 ms\\
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	50 \hline
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	51 \end{tabular*}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	52 \end{center}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	53 \end{table}
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	54
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	55 まだCPUとの性能差は開いているが、10倍程速度が向上した。
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	56 Task並列ではなく、GPU側でもデータ並列の実行をサポートし、
764783c403bd commit Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	57 BufferへのRead/Writeのパイプラインが上手く動作するように同期機構の見直しを行う事が今後の課題となる。

Mercurial > hg > Papers > 2013 > yuhi-sigos

annotate paper/benchmark.tex @ 1:764783c403bd