view paper/cbc.tex @ 47:45d3ac176bf5

Mini fixes
author atton <atton@cr.ie.u-ryukyu.ac.jp>
date Mon, 30 Jan 2017 14:54:01 +0900
parents 36ce493604fb
children e9ff08a232f7
line wrap: on
line source

\chapter{Continuation based C}
\label{chapter:cbc}

Continuation based C (CbC)は当研究室で開発しているプログラミング言語であり、OSや組み込みソフトウェアの開発を主な対象としている。
CbC は C言語の下位の言語であり、構文はほぼC言語と同じものを持つが、よりアセンブラに近い形でプログラムを記述する。
CbC は CodeSegment と呼ばれる単位で処理を定義し、それらを組み合わせることにでプログラム全体を構成する。
データの単位は DataSegment と呼ばれる単位で定義し、それら CodeSegment によって変更していくことでプログラムの実行となる。
CbC の処理系には llvm/clang による実装\cite{110009766999} と gcc\cite{weko_82695_1}による実装などが存在する。

% {{{ section: CodeSegment と DataSegment

\section{CodeSegment と DataSegment}
本研究室では検証を行ないやすいプログラムの単位として CodeSegment と DataSegment を用いるプラグラミングスタイルを提案している。

CodeSegment は処理の単位である。
入力を受け取り、それに対して処理を行なった後を出力を行なう。
また、CodeSegment は他の CodeSegment と組み合わせることが可能である。
あるCodeSegment A を CodeSegment B に接続した場合、 A の出力は B の入力となる。

% TODO: figure (cs A . cs B)

DataSegment は CodeSegment が扱うデータの単位であり、処理に必要なデータが全て入っている。
CodeSegment の入力となる DataSegment は Input DataSegment と呼ばれ、出力は Output DataSegment と呼ばれる。
CodeSegment A と CodeSegment B を接続した時、A の Output DataSegment は B の入力 Input DataSegment となる。

% TODO: figure (cs A --(ds)--> cs B)

% }}}

% {{{ Continuation based C における CodeSegment と DataSegment

\section{Continuation based C における CodeSegment と DataSegment}
最も基本的な CbC のソースコードをリスト\ref{src:goto}に、ソースコードが実行される流れを図\ref{fig:goto}に示す。
Continuation based C における CodeSegment は返り値を持たない関数として表現される。
CodeSegment を定義するためには、C言語の関数を定義する構文の返り値の型部分に \verb/__code/ キーワードを指定する。
Input DataSegment は関数の引数として定義される。
次の CodeSegment へ処理を移す際には \verb/goto/ キーワードの後に CodeSegment 名と Input DataSegment を指定する。
処理の移動を軽量継続と呼び、リスト\ref{src:goto}内の \verb/goto cs1(a+b);/ がこれにあたる。
この時の \verb/(a+b)/ が次の CodeSegment である cs1 の Input DataSegment となる cs0 の Output DataSegment である。

\lstinputlisting[label=src:goto, caption=CodeSegment の軽量継続] {src/goto.cbc}

\begin{figure}[htbp]
    \begin{center}
        \includegraphics[scale=1.0]{fig/goto.pdf}
        \caption{CodeSegment の軽量継続}
        \label{fig:goto}
    \end{center}
\end{figure}

% TODO: scheme ref?
Scheme などの call/cc といった継続はトップレベルから現在までの位置を環境として保持する。
通常環境とは関数の呼び出しスタックの状態である。
CbC の軽量継続は呼び出し元の情報を持たないため、スタックを破棄しながら処理を続けていく。
よって、リスト\ref{src:goto} のプログラムでは cs0  から cs1 へと継続した後にcs0 へ戻ることはできない。

もう少し複雑な CbC のソースコードをリスト\ref{src:factrial}に、実行される流れを図\ref{fig:factrial}に示す。
このソースコードは整数の階乗を求めるプログラムである。
CodeSegment factorial0 では自分自身への再帰的な継続を用いて階乗を計算している。
軽量継続時には関数呼び出しのスタックは存在しないが、計算中の値を DataSegment で持つことで再帰を含むループ処理も行なうことができる。

\lstinputlisting[label=src:factrial, caption=階乗を求める CbC プログラム] {src/factrial.cbc}

\begin{figure}[htbp]
    \begin{center}
        \includegraphics[scale=0.8]{fig/factorial.pdf}
        \caption{階乗を求める CbC プログラム}
        \label{fig:factrial}
    \end{center}
\end{figure}

% }}}

% {{{ MetaCodeSegment と MetaDataSegment

\section{MetaCodeSegment と MetaDataSegment}
プログラムを記述する際、本来行ないたい計算の他にも記述しなければならない部分が存在する。
メモリの管理やネットワーク処理、エラーハンドリングや並列処理などがこれにあたり、本来行ないたい計算と区別してメタ計算と呼ぶ。
プログラムを動作させるためにメタ計算部分は必須であり、しばしば本来の処理よりも複雑度が高い。

CodeSegment を用いたプログラミングスタイルでは計算とメタ計算を分離して記述する。
分離した計算は階層構造を持ち、本来行ないたい処理をノーマルレベルとし、メタ計算はメタレベルとしてノーマルレベルよりも上の存在に位置する。
複雑なメタ計算部分をライブラリやOS側が提供することで、ユーザはノーマルレベルの計算の記述に集中することができる。
また、ノーマルレベルのプログラムに必要なメタ計算を追加することで、並列処理やネットワーク処理などを含むプログラムに拡張できる。
さらに、ノーマルレベルからはメタレベルは隠蔽されているため、メタ計算の実装を切り替えることも可能である。
例えば、並列処理のメタ計算用いたプログラムを作成する際、CPUで並列処理を行なうメタ計算とGPUで並列処理メタ計算を環境に応じて作成することができる。

なお、メタ計算を行なう CodeSegment は Meta CodeSegment と呼び、メタ計算に必要な DataSegment は Meta DataSegment と呼ぶ。
Meta CodeSegment は CodeSegment の前後にメタ計算を挟むことで実現され、Meta DataSegment は DataSegment を含む上位の DataSegment として実現できる。
よって、メタ計算は通常の計算を覆うように計算を拡張するものだと考えられる(図\ref{fig:meta})。

\begin{figure}[htbp]
    \begin{center}
        \includegraphics[scale=1.0]{fig/meta.pdf}
        \caption{Meta CodeSegment と Meta DataSegment}
        \label{fig:meta}
    \end{center}
\end{figure}

% }}}

% {{{ Continuation based C におけるメタ計算の例: GearsOS
\section{Continuation based C におけるメタ計算の例: GearsOS}
CbC におけるメタ計算は軽量継続を行なう際に Meta CodeSegment を挟むことで実現できる。
CbC を用いてメタ計算を実現した例として、GearsOS\cite{weko_142109_1}が存在する。
GearsOS とはマルチコアCPUやGPU環境での動作を対象としたOSであり、現在OSの設計と並列処理部分の実装が行なわれている。
GearsOS におけるメタ計算はMonadによって形式化されている\cite{Moggi:1991:NCM:116981.116984}。
現在存在するメタ計算としてメモリの確保と割り当て、並列に書き込むことが可能な Synchronized Queue、データの保存に用いる非破壊赤黒木がある。

GearsOS では CodeSegment と DataSegment はそれぞれ CodeGear と DataGear と呼ばれている。
マルチコアCPU環境では CodeGear と CodeSegment は同一だが、GPU 環境では CodeGear には OpenCL/CUDA における kernel も含まれる。 % TODO: ref OpenCL/CUDA
kernel とは GPU で実行される関数のことであり、GPU上のメモリに配置されたデータ群に対して並列に実行されるものである。
通常 GPU でデータの処理を行なう場合はデータの転送、転送終了を同期で確認、 kernel 実行、kernel の終了を同期で確認する、という手順が必要である。
CPU/GPU での処理をメタ計算で行なうことにより、ノーマルレベルでは CodeGear が実行されるデバイスや DataGear の位置を意識する必要が無いというメリットがある。

GearsOS においては軽量継続の呼び出し部分もメタ計算として実現されている。
ある CodeGear から次の CodeGear へと継続する際には、次に実行される CodeGear の名前を指定する。
その名前を Meta CodeGear が解釈し、対応する CodeGear へと処理を引き渡す。
これは従来の OS の Dynamic Loading Libary や Command の呼び出しに相当する。
CodeGear と名前の対応は Meta DataGear に格納されており、従来の OS の Process  や Thread に相当する。

具体的には Meta DataGear には以下のようなものが格納される。

\begin{itemize}
    \item DataGear の型情報
    \item DataGear を格納するメモリの情報
    \item CodeGear の名前と CodeGear の関数ポインタ との対応表
    \item CodeGear が参照する DataGear へのポインタ
\end{itemize}

実際の GearsOS におけるメモリ管理を含むメタ計算用の Meta DataGear の定義例をリスト\ref{src:context}に示す。
Meta DataGear は Context という名前の構造体で定義されている。

\lstinputlisting[label=src:context, caption=GearsOS における Meta DataGearの定義例] {src/context.h}

\begin{itemize}
    \item DataGear の型情報

        DataGear は構造体を用いて定義する(リスト\ref{src:context} 27-46行)。
        Tree や Node、 Allocate 構造体が DataGear に相当する。
        メタ計算は任意の DataGear 扱うために全ての DataGear を扱える必要がある。
        全ての DataGear の共用体を定義することで、 DataGear を一律に扱うことができる(リスト\ref{src:context} 26-47行)。
        メモリを確保する場合はこの型情報からサイズを決定する。

    \item DataGear を格納するメモリの情報

        メモリ領域の管理は、事前に領域を確保した後、必要に応じてその領域を割り当てることで実現する。
        そのために Context は割り当て済みの領域 heap と、割り当てた DataGear の数 dataNum を持つ。

    \item CodeGear の名前と CodeGear の関数ポインタ との対応表

        CodeGear の名前と CodeGear の関数ポインタの対応は enum と関数ポインタによって実現されている。
        CodeGear の名前は enum (リスト\ref{src:context} 5-9行) で定義され、コンパイル後には整数へと変換される。
        プログラム全体で利用する CodeGear は code フィールドに格納されており、enum を用いてアクセスする。
        この対応表を動的に変更することにより、実行時に比較ルーチンなどを変更することが可能になる。


    \item CodeGear が参照する DataGear へのポインタ

        Meta CodeGear は Context を引数に取る CodeGear として定義されている。
        そのため、Meta CodeGear が DataGear の値を使う為には Context から DataGear を取り出す必要がある。
        取り出す必要がある DataGear は enum を用いて定義し(リスト\ref{src:context} 11-14行)、 CodeGear を実行する際に data フィールドから取り出す。
\end{itemize}

なお、この Context から DataGear を取り出す Meta CodeSegment を stub と呼ぶ。
stub の例をリスト\ref{src:stub}に示す。
stub は Context が持つ DataGear のポインタ data に対して enum を用いてアクセスしている。
現在、この stub は全ての CodeGear に対してユーザが1つずつ定義する必要がある。
この作業は非常に煩雑であり、CodeGear の定義から生成するスクリプトを用いて定義の簡易化を行なっているが、コンパイラ側でのサポートは入っていない。
この stub を型情報から自動生成するために Continuation based C における型システムを定義する必要がある。

\lstinputlisting[label=src:stub, caption=GearsOS における stub Meta CodeSegment] {src/stub.cbc}

% }}}

% {{{ GearsOS における非破壊赤黒木

\section{GearsOS における非破壊赤黒木}

現状の GearsOS に実装されているメタ計算として、非破壊赤黒木が存在する。
メタ計算として定義することにより、ノーマルレベルからは木のバランスを必要なく要素の挿入と探索、削除が行なえる。
赤黒木とは二分探索木の一種であり、木の各ノードが赤と黒の色を持っている。
木に対して要素の挿入や削除を行なった際、その色を用いて木のバランスを保つ。

二分探索木の条件は以下である。

\begin{itemize}
    \item 左の子孫の値は親の値より小さい
    \item 右の子孫の値は親の値より大きい
\end{itemize}

加えて、赤黒木が持つ具体的な条件は以下のものである。

\begin{itemize}
    \item 各ノードは赤か黒の色を持つ。
    \item ルートノードの色は黒である。
    \item 葉ノードの色は黒である。
    \item 赤ノードは2つの黒ノードを子として持つ(よって赤ノードが続くことは無い)。
    \item ルートから最下位ノードへの経路に含まれる黒ノードの数はどの最下位ノードでも一定である。
\end{itemize}


数値を要素に持つ赤黒木の例を図\ref{fig:rbtree}に示す。
ルートノードは黒であり、赤ノードは連続していない。
加えて各最下位ノードへの経路に含まれる黒ノードの個数は全て2である。

\begin{figure}[htbp]
    \begin{center}
        \includegraphics[scale=0.5]{fig/rbtree.pdf}
        \caption{赤黒木の例}
        \label{fig:rbtree}
    \end{center}
\end{figure}

これらの条件より、木をルートから辿った際に最も長い経路は最も短い経路の高々二倍に収まる。

\newpage % for layout

GearsOS で実装されている赤黒木は特に非破壊赤黒木であり、一度構築した木構造は破壊される操作ごとに新しい木構造が生成される。
非破壊赤黒木の実装の基本的な戦略は、変更したいノードへのルートノードからの経路を全て複製し、変更後に新たなルートノードとする。
この際に変更が行なわれていない部分は変更前の木と共有する(図\ref{fig:non-destructive-rbtree})。
これは一度構築された木構造は破壊されないという非破壊の性質を用いたメモリ使用量の最適化である。

\begin{figure}[htbp]
    \begin{center}
        \includegraphics[scale=0.5]{fig/non-destructive-rbtree}
        \caption{非破壊赤黒木の編集}
        \label{fig:non-destructive-rbtree}
    \end{center}
\end{figure}

CbC を用いて赤黒木を実装する際の問題として、関数の呼び出しスタックが存在しないため、関数の再帰呼び出しによって木が辿れないことがある。
経路を辿るためにはノードに親への参照を持たせるか、挿入・削除時に辿った経路を記憶する必要がある。
ノードが親への参照を持つ非破壊木構造は共通部分の共有が行なえないため、辿った経路を記憶する方法を使う。
経路の記憶にはスタックを用い、スタックは Meta DataSegment に保持させる。

赤黒木を格納する DataSegment と Meta DataSegment の定義をリスト\ref{src:rbtree-context}に示す。
経路の記憶に用いるスタックは Meta DataSegment である Context 内部の \verb/node_stack/ である。
DataSegment は各ノード情報を持つ \verb/Node/構造体と、赤黒木を格納する \verb/Tree/構造体、挿入などで操作中の一時的な木を格納する \verb/Traverse/共用体などがある。

\lstinputlisting[label=src:rbtree-context, caption=赤黒木の DataSegment と Meta DataSegment] {src/rbtreeContext.h}

Meta DataSegment を初期化する Meta CodeSegment initLLRBContext をリスト\ref{src:init-rbtree-context}に示す。
この Meta CodeSegment ではメモリ領域の確保、CodeSegment 名と CodeSegment の実体の対応表の作成などを行なう。
メモリ領域はプログラムの起動時に一定数のメモリを確保し、ヒープとして \verb/heap/ フィールドに保持させる。
CodeSegment 名と CodeSegment の実体との対応は、enum で定義された CodeSegment 名の添字へと CodeSegment の関数ポインタを代入することにより持つ。
例えば \verb/Put/ の実体は \verb/put_stub/ である。
他にも DataSegment の初期化(リスト\ref{src:init-rbtree-context} 34-48)とスタックの初期化(リスト\ref{src:init-rbtree-context} 50-51)を行なう。

\lstinputlisting[label=src:init-rbtree-context, caption=赤黒木の Meta DataSegment の初期化を行なう Meta CodeSegment ] {src/initLLRBContext.c}

実際の赤黒木の実装に用いられている Meta CodeSegment の一例をリスト\ref{src:rbtree-insert-case-2}に示す。
Meta CodeSegment \verb/insertCase2/ は要素を挿入した場合に呼ばれる Meta CodeSegment の一つであり、親ノードの色によって処理を変える。
まず、色を確認するために経路を記憶しているスタックから親の情報を取り出す。
親の色が黒ならば処理を終了し、次の CodeSegment へと軽量継続する(リスト\ref{src:rbtree-insert-case-2} 5-8)。
親の色が赤であるならばさらに処理を続行して \verb/InsertCase3/ へと軽量継続する。
ここで、経路情報を再現するためにスタックへと親を再代入してから軽量継続を行なっている。
なお、Meta CodeSegment でも Context から DataSegment を展開する処理は stub によって行なわれる(リスト\ref{src:rbtree-insert-case-2} 14-16)。

\lstinputlisting[label=src:rbtree-insert-case-2, caption=赤黒木の実装に用いられている Meta CodeSegment例] {src/insertCase2.c}

% }}}

% {{{ メタ計算ライブラリ akasha を用いた赤黒木の実装の検証

\section{メタ計算ライブラリ akasha を用いた赤黒木の実装の検証}
GearsOS の赤黒木の仕様の定義とその確認を CbC で行なっていく。
赤黒木には以下の性質が求められる。

\begin{itemize}
    \item 挿入したデータは参照できること
    \item 削除したデータは参照できないこと
    \item 値を更新した後は更新された値が参照されること
    \item 操作を行なった後の木はバランスしていること
\end{itemize}

今回はバランスに関する仕様を確認する。
操作を挿入に限定し、木にどのような順番で要素を挿入しても木がバランスすることを検証する。
検証には当研究室で開発しているメタ計算ライブラリ akasha を用いる。
akasha では仕様は常に成り立つべき CbC の条件式として定義される。
具体的には Meta CodeSegment に定義した assert が仕様に相当する。
仕様の例として、木をルートから辿った際に最も長い経路は最も短い経路の高々2倍に収まる、という木がバランスしている際に成り立つ式を定義する(リスト\ref{src:assert})。

\lstinputlisting[label=src:assert, caption=木の高さに関する仕様記述] {src/assert.c}

リスト\ref{src:assert} で定義した仕様が常に成り立つか、全ての挿入順番を列挙しながら確認していく。
まずは最も単純な有限の個数の任意の順の数え上げに対して検証していく。
最初に検証の対象となる赤黒木と検証に必要な DataSegment を含む Meta DataSegment を定義する(リスト\ref{src:akasha-context})。
DataSegment は データの挿入順を数え上げるためには使う環状リスト \verb/Iterator/ とその要素 \verb/IterElem/、検証に使う情報を保持する \verb/AkashaInfo/、木をなぞる際に使う \verb/AkashaNode/ がある。

\lstinputlisting[label=src:akasha-context, caption=検証を行なうための Meta DataSegment] {src/akashaContext.h}

挿入順番の数え上げには環状リストを用いた深さ優先探索を用いる。
最初に検証する要素を全て持つ環状リストを作成し、木に挿入した要素を除きながら環状リストを複製していく。
環状リストが空になった時が組み合わせを一つ列挙し終えた状態となる。
列挙し終えた後、前の深さの環状リストを再現してリストの先頭を進めることで異なる組み合わせを列挙する。

仕様には木の高さが含まれるので、高さを取得する Meta CodeSegment が必要となる。
リスト\ref{src:get-min-height}に木の最も低い経路の長さを取得する Meta CodeSegment を示す。

木を辿るためのスタックに相当する \verb/AkshaNode/を用いて経路を保持しつつ、高さを確認している。
スタックが空であれば全てのノードを確認したので次の CodeSegment へと軽量継続を行なう。
空でなければ今辿っているノードが葉であるか確認し、葉ならば高さを更新して次のノードを確認するため自身へと軽量継続する。
葉でなければ高さを1増やして左右の子をスタックに積み、自身へと軽量継続を行なう。

\lstinputlisting[label=src:get-min-height, caption=木の最も短かい経路の長さを確認する Meta CodeSegment] {src/getMinHeight.c}

同様に最も高い高さを取得し、仕様であるリスト\ref{src:assert}の assert を挿入の度に実行する。
assert は CodeSegment の結合を行なうメタ計算である \verb/meta/ を上書きすることにより実現する。
\verb/meta/ はリスト\ref{src:rbtree-insert-case-2}の \verb/insertCase2/ のように軽量継続を行なう際に CodeSegment 名と DataSegment を指定するものである。
検証を行なわない通常の \verb/meta/ の実装は CodeSegment 名から対応する実体への軽量継続である(リスト\ref{src:meta})。

\lstinputlisting[label=src:meta, caption=通常の CodeSegment の軽量継続] {src/meta.c}

これを、検証を行なうように変更することで \verb/insertCase2/ といった赤黒木の実装のコードを修正することなく検証を行なうことができる。
検証を行ないながら軽量継続する \verb/meta/ はリスト\ref{src:akasha-meta}のように定義される。
実際の検証部分は \verb/PutAndGoToNextDepth/ の後に行なわれるため、直接は記述されていない。
この \verb/meta/ が行なうのは検証用にメモリの管理である。
状態の数え上げを行なう際に状態を保存したり、元の状態に戻す処理が行なわれる。
このメタ計算を用いた検証では、要素数13個までの任意の順で挿入の際に仕様が満たされることを確認できた。
また、赤黒木の処理内部に恣意的なバグを追加した際には反例を返した。

\lstinputlisting[label=src:akasha-meta, caption=検証を行なう CodeSegment の軽量継続] {src/akashaMeta.c}

% }}}