view paper/cbc.tex @ 76:a9ed6a6dc1f2

Add chapter akasha
author atton <atton@cr.ie.u-ryukyu.ac.jp>
date Wed, 08 Feb 2017 13:50:52 +0900
parents e9ff08a232f7
children 21cc0181b4cc
line wrap: on
line source

\chapter{Continuation based C}
\label{chapter:cbc}

Continuation based C (CbC)は当研究室で開発しているプログラミング言語であり、OSや組み込みソフトウェアの開発を主な対象としている。
CbC は C言語の下位の言語であり、構文はほぼC言語と同じものを持つが、よりアセンブラに近い形でプログラムを記述する。
CbC は CodeSegment と呼ばれる単位で処理を定義し、それらを組み合わせることにでプログラム全体を構成する。
データの単位は DataSegment と呼ばれる単位で定義し、それら CodeSegment によって変更していくことでプログラムの実行となる。
CbC の処理系には llvm/clang による実装\cite{110009766999} と gcc\cite{weko_82695_1}による実装などが存在する。

% {{{ section: CodeSegment と DataSegment

\section{CodeSegment と DataSegment}
本研究室では検証を行ないやすいプログラムの単位として CodeSegment と DataSegment を用いるプラグラミングスタイルを提案している。

CodeSegment は処理の単位である。
入力を受け取り、それに対して処理を行なった後を出力を行なう。
また、CodeSegment は他の CodeSegment と組み合わせることが可能である。
あるCodeSegment A を CodeSegment B に接続した場合、 A の出力は B の入力となる。

% TODO: figure (cs A . cs B)

DataSegment は CodeSegment が扱うデータの単位であり、処理に必要なデータが全て入っている。
CodeSegment の入力となる DataSegment は Input DataSegment と呼ばれ、出力は Output DataSegment と呼ばれる。
CodeSegment A と CodeSegment B を接続した時、A の Output DataSegment は B の入力 Input DataSegment となる。

% TODO: figure (cs A --(ds)--> cs B)

% }}}

% {{{ Continuation based C における CodeSegment と DataSegment

\section{Continuation based C における CodeSegment と DataSegment}
最も基本的な CbC のソースコードをリスト\ref{src:goto}に、ソースコードが実行される流れを図\ref{fig:goto}に示す。
Continuation based C における CodeSegment は返り値を持たない関数として表現される。
CodeSegment を定義するためには、C言語の関数を定義する構文の返り値の型部分に \verb/__code/ キーワードを指定する。
Input DataSegment は関数の引数として定義される。
次の CodeSegment へ処理を移す際には \verb/goto/ キーワードの後に CodeSegment 名と Input DataSegment を指定する。
処理の移動を軽量継続と呼び、リスト\ref{src:goto}内の \verb/goto cs1(a+b);/ がこれにあたる。
この時の \verb/(a+b)/ が次の CodeSegment である cs1 の Input DataSegment となる cs0 の Output DataSegment である。

\lstinputlisting[label=src:goto, caption=CodeSegment の軽量継続] {src/goto.cbc}

\begin{figure}[htbp]
    \begin{center}
        \includegraphics[scale=1.0]{fig/goto.pdf}
        \caption{CodeSegment の軽量継続}
        \label{fig:goto}
    \end{center}
\end{figure}

% TODO: scheme ref?
Scheme などの call/cc といった継続はトップレベルから現在までの位置を環境として保持する。
通常環境とは関数の呼び出しスタックの状態である。
CbC の軽量継続は呼び出し元の情報を持たないため、スタックを破棄しながら処理を続けていく。
よって、リスト\ref{src:goto} のプログラムでは cs0  から cs1 へと継続した後にcs0 へ戻ることはできない。

もう少し複雑な CbC のソースコードをリスト\ref{src:factrial}に、実行される流れを図\ref{fig:factrial}に示す。
このソースコードは整数の階乗を求めるプログラムである。
CodeSegment factorial0 では自分自身への再帰的な継続を用いて階乗を計算している。
軽量継続時には関数呼び出しのスタックは存在しないが、計算中の値を DataSegment で持つことで再帰を含むループ処理も行なうことができる。

\lstinputlisting[label=src:factrial, caption=階乗を求める CbC プログラム] {src/factrial.cbc}

\begin{figure}[htbp]
    \begin{center}
        \includegraphics[scale=0.8]{fig/factorial.pdf}
        \caption{階乗を求める CbC プログラム}
        \label{fig:factrial}
    \end{center}
\end{figure}

% }}}

% {{{ MetaCodeSegment と MetaDataSegment

\section{MetaCodeSegment と MetaDataSegment}
プログラムを記述する際、本来行ないたい計算の他にも記述しなければならない部分が存在する。
メモリの管理やネットワーク処理、エラーハンドリングや並列処理などがこれにあたり、本来行ないたい計算と区別してメタ計算と呼ぶ。
プログラムを動作させるためにメタ計算部分は必須であり、しばしば本来の処理よりも複雑度が高い。

CodeSegment を用いたプログラミングスタイルでは計算とメタ計算を分離して記述する。
分離した計算は階層構造を持ち、本来行ないたい処理をノーマルレベルとし、メタ計算はメタレベルとしてノーマルレベルよりも上の存在に位置する。
複雑なメタ計算部分をライブラリやOS側が提供することで、ユーザはノーマルレベルの計算の記述に集中することができる。
また、ノーマルレベルのプログラムに必要なメタ計算を追加することで、並列処理やネットワーク処理などを含むプログラムに拡張できる。
さらに、ノーマルレベルからはメタレベルは隠蔽されているため、メタ計算の実装を切り替えることも可能である。
例えば、並列処理のメタ計算用いたプログラムを作成する際、CPUで並列処理を行なうメタ計算とGPUで並列処理メタ計算を環境に応じて作成することができる。

なお、メタ計算を行なう CodeSegment は Meta CodeSegment と呼び、メタ計算に必要な DataSegment は Meta DataSegment と呼ぶ。
Meta CodeSegment は CodeSegment の前後にメタ計算を挟むことで実現され、Meta DataSegment は DataSegment を含む上位の DataSegment として実現できる。
よって、メタ計算は通常の計算を覆うように計算を拡張するものだと考えられる(図\ref{fig:meta})。

\begin{figure}[htbp]
    \begin{center}
        \includegraphics[scale=1.0]{fig/meta.pdf}
        \caption{Meta CodeSegment と Meta DataSegment}
        \label{fig:meta}
    \end{center}
\end{figure}

% }}}

% {{{ Continuation based C におけるメタ計算の例: GearsOS
\section{Continuation based C におけるメタ計算の例: GearsOS}
CbC を用いてメタ計算を実現した例として、GearsOS\cite{weko_142109_1}が存在する。
GearsOS は並列に、信頼性高く動作することを目標としたOS であり、 マルチコアCPUやGPU環境での動作を対象としている。
現在OSの設計と並列処理部分の実装が行なわれている。
GearsOS におけるメタ計算はMonad\cite{Moggi:1991:NCM:116981.116984}を用いている。 %TODO: kkb さんの修論
現在実装済みのメタ計算はメモリの管理、並列に書き込むことが可能な Synchronized Queue、データの保存用の非破壊赤黒木がある。

GearsOS では CodeSegment と DataSegment はそれぞれ CodeGear と DataGear と呼ばれている。
マルチコアCPU環境では CodeGear と CodeSegment は同一だが、GPU 環境では CodeGear には OpenCL~\cite{opencl}/CUDA~\cite{cuda} における kernel も含まれる。
kernel とは GPU で実行される関数のことであり、GPU上のメモリに配置されたデータ群に対して並列に実行される。
通常 GPU でデータの処理を行なう場合は

\begin{itemize}
    \item データをメインメモリから GPUのメモリへ転送
    \item 転送終了を同期で確認
    \item kernel 起動(GPUメモリ上のデータに対して並列に処理)
    \item 処理終了を同期で確認
    \item 計算結果であるデータを GPU のメモリからメインメモリへ転送
    \item 転送終了を同期で確認
\end{itemize}

といった手順が必要であり、ユーザは処理したいデータの位置などを意識しながらプログラミングする必要がある。
GearsOS では CPU/GPU での処理をメタ計算としてユーザから隠すことにより、 CodeGear が実行されるデバイスや DataGear の位置を意識する必要がなくなる。

GearsOS で利用する Meta DataGear には以下のものが含まれる。

\begin{itemize}
    \item DataGear の型情報
    \item DataGear を格納するメモリの情報
    \item CodeGear の名前と CodeGear の関数ポインタ との対応表
    \item CodeGear が参照する DataGear へのポインタ
\end{itemize}

実際の GearsOS におけるメモリ管理を含むメタ計算用の Meta DataGear の定義例をリスト\ref{src:context}に示す。
Meta DataGear は Context という名前の構造体で定義されている。
通常レベルの DataGear も構造体で定義されているが、メタ計算側から見た DataGear はそれぞれの構造体の共用体となっており、一様に扱える。

\lstinputlisting[label=src:context, caption=GearsOS における Meta DataGearの定義例] {src/context.h}

リスト~\ref{src:context}のソースコードは以下のように対応している。

\begin{itemize}
    \item DataGear の型情報

        DataGear は構造体を用いて定義する(リスト\ref{src:context} 27-46行)。
        Tree や Node、 Allocate 構造体が DataGear に相当する。
        メタ計算は任意の DataGear 扱うために全ての DataGear を扱える必要がある。
        全ての DataGear の共用体を定義することで、 DataGear を一律に扱うことができる(リスト\ref{src:context} 26-47行)。
        メモリを確保する場合はこの型情報からサイズを決定する。

    \item DataGear を格納するメモリの情報

        メモリ領域の管理は、事前に領域を確保した後、必要に応じてその領域を割り当てることで実現する。
        そのために Context は割り当て済みの領域 heap と、割り当てた DataGear の数 dataNum を持つ。

    \item CodeGear の名前と CodeGear の関数ポインタ との対応表

        CodeGear の名前と CodeGear の関数ポインタの対応は enum と関数ポインタによって実現されている。
        CodeGear の名前は enum (リスト\ref{src:context} 5-9行) で定義され、コンパイル後には整数へと変換される。
        プログラム全体で利用する CodeGear は code フィールドに格納されており、enum を用いてアクセスする。
        この対応表を動的に変更することにより、実行時に比較ルーチンなどを変更することが可能になる。


    \item CodeGear が参照する DataGear へのポインタ

        Meta CodeGear は Context を引数に取る CodeGear として定義されている。
        そのため、Meta CodeGear が DataGear の値を使う為には Context から DataGear を取り出す必要がある。
        取り出す必要がある DataGear は enum を用いて定義し(リスト\ref{src:context} 11-14行)、 CodeGear を実行する際に data フィールドから取り出す。
\end{itemize}

Meta CodeGear は定義された Meta DataGear を処理する CodeGear である。
メモリ管理や並列処理の待ち合わせといった処理はこのメタレベルにしか表れない。

GearsOS においては軽量継続もメタ計算として実現されている。
とある CodeGear から次の CodeGear へと軽量継続する際には、次に実行される CodeGear の名前を指定する。
その名前を Meta CodeGear が解釈し、対応する CodeGear へと処理を引き渡す(リスト~\ref{src:meta}の \verb/meta/)。

\lstinputlisting[label=src:meta, caption=通常の CodeSegment の軽量継続] {src/meta.c}

CodeGear と名前の対応は Meta DataGear に格納されており、従来の OS の Process  や Thread に相当する。
名前の対応を動的に切り替えたり、Thread ごとに切り替えることにより、通常レベルのプログラムを変更せず実行を上書きできる。
これは従来の OS の Dynamic Loading Libary や Command の呼び出しに相当する。

また、通常レベルの CodeGear から Meta DataGear を操作できてしまうと、ユーザがメタレベル操作を自由に記述できてしまい、メタ計算を分離した意味が無くなってしまう。
これを防ぐために、CodeGear を実行する際は Meta DataGear から必要な DataGear だけを渡す。
このように、 Meta DataGear から DataGear を取り出す Meta CodeGear を stub と呼ぶ。
stub の例をリスト\ref{src:stub}に示す。
\lstinputlisting[label=src:stub, caption=GearsOS における stub Meta CodeSegment] {src/stub.cbc}

stub は Context が持つ DataGear のポインタ data に対して enum を用いてアクセスしている。
なお、現在はメタレベルの計算とノーマルレベルの分離はコンパイラ側がサポートしていないため、引数に Meta DataGear である Context が渡されているが、本来はノーマルレベルではアクセスできない。
% また、stub は全ての CodeGear に対してユーザが1つずつ定義する必要があるため、 CodeGear の定義が煩雑になっている。
% レベルの分離と stub の自動生成を行なうスクリプトも存在しているが、コンパイラ側のサポートはまだ行なわれていない。
% 型情報を用いたコンパイル時 stub 生成や、軽量継続時の型チェックを行なうために本研究では CbC の型システムを定義する。

また、GearsOS におけるメタ計算として CodeGear のモデル検査がある。
通常レベルの CodeGear を変更することなく、その仕様を検証するものである。
個々の CodeGear の仕様を検証することにより、より信頼性の高いOSを目指す。

% }}}