組み込み向け言語Continuation based CのGCC上の実装

与儀健人 (並列信頼研究室) <kent@cr.ie.u-ryukyu.ac.jp>

研究の背景

ソフトウェアは今も大規模・複雑化が続いている
しかし、ソフトウェアのバグを発見するのは難しい
組込みやReal-time処理の需要も増大してる
高速な応答が要求される組込み処理にはハードウェアに近い言語が適している

なにが問題になるのか？

組込みソフト、Real-time処理、通信プロトコル記述、どれも状態遷移ベース
現存する記述言語は状態遷移の記述に向いていない
スタックが状態を隠蔽するため、分割しにくい、検証が難しい

研究目的

状態遷移記述をベースとした、より細かい単位でのプログラミングを実現する

組込み、通信プロトコル、Real-time処理などの記述に向いている
状態遷移を直接記述するため、タブロー法での検証に有利
関数より細かく、ステートメントより大きい処理単位
細かい単位でソースコードレベルの最適化を可能にする

条件

既存のソフトウェアは膨大であり、無駄にはできない
互換性が必須条件
Cからの変換、Cへの変換ができる事が望ましい

Continuation based Cの提案

継続を基本とする記述言語CbC

環境を保持しない継続、軽量継続を導入
軽量継続で状態遷移が明確になる
関数の代わりとなる処理単位コードセグメント
関数 > コードセグメント > ステートメント
for, whileなどのループも軽量継続で実現できる
Cとの相互利用のための構文環境付き継続
- このCとの相互利用可能なCbCはC with Continuationと呼ばれる

コードセグメントと軽量継続の記述

typedef code (*NEXT)(int);
int main(int argc, char **argv) {
  int i;
  i = atoi(argv[1]);
  goto factor(i, print_fact);
}
code factor(int x, NEXT next) {
  goto factor0(1, x, next);
}
code factor0(int prod,int x,NEXT next) {
  if (x >= 1) {
    goto factor0(prod*x, x-1, next);
  } else {
    goto (*next)(prod);
  }
}
code print_fact(int value) {
  printf("factorial = %d\n", value);
  exit(0);
}

実際のプログラム記述は？

コードセグメント定義
- codeキーワードで宣言
- 書式は関数と同じ
軽量継続制御
- gotoキーワードと引数
- コードセグメントの最初に飛ぶ
- コードセグメントポインタによる間接継続も可能

これまでのCbC

2000: micro-cをベースとしたコンパイラの完成
x86, PowerPC, ARM, MIPS.
2002: CbCを用いた分散計算
2005: CbCを用いたプログラム分割手法
2006: CbCによるSPUマシンのシミュレータ
2007: 時相論理をベースとしたCbCプログラムの検証
2008: GCCをベースとしたコンパイラが開発される
2010: GCCベースコンパイラを実用レベルに拡張

本研究での取り組み

取り組み

First

GCCにて実用レベルのCbCプログラムを動作可能にする

軽量継続の実装、これまでの制限の除去
x86アーキテクチャにて高速化を行った
PowerPCアーキテクチャでの間接継続の追加

Second

C言語との相互利用を可能にした

Third

ソースコードメンテナンス性の向上

GNU コンパイラコレクション (GCC)

GCCでのコンパイルの流れ

フロントエンド
ミドルエンド
バックエンド

GNU コンパイラコレクション (GCC)

GCCでのコンパイルの流れ

フロントエンド
ミドルエンド
バックエンド

First: 軽量継続の実装

軽量継続を実装するには？

河野先生の作ったmicro-cは元より軽量継続を考慮して良く設計されている
micro-Cと同じ命令列を出力させるのは難しい
関数コール(call命令)ではもちろんダメ
必ずjmp命令を出力しないといけない
スタックを拡張してはいけない
しかしGCCでは関数をベースにしなければならない

末尾呼出をGCCに強制させる必要がある

First: 軽量継続の実装

末尾呼出ってなに？

リターンの直前の関数呼び出しのこと
GCCが最適化してくれる (TCE)
元の関数に戻らないため少し高速に
スタックも積まなくてよいため、大幅なメモリ節約、アクセス軽減

First: 軽量継続の実装

末尾呼出ってなに？

リターンの直前の関数呼び出しのこと
GCCが最適化してくれる (TCE)
元の関数に戻らないため少し高速に
スタックも積まなくてよいため、大幅なメモリ節約、アクセス軽減

この末尾呼出(TCE)を強制して軽量継続を実装！

First: x86における高速化

軽量継続は実装されたが、やはりmicro-cに比べると遅い

特にx86アーキテクチャ
あくまで関数がベースなので
関数呼出規約に従い全ての引数をスタックに格納してしまう
これをレジスタにすれば高速化が可能

fastcallの導入

GCCの独自拡張機能
引数の最初の2つのみレジスタに保持するようになる

First: x86における高速化

fastcallの強制

通常は以下の様に定義される

__code current(int a, int b, int c) __attribute__((fastcall));

しかしこれを毎回ユーザが書くのは変
やはりフロントエンドにて、強制するべき
型の構文木を生成した際にfastcall属性を付加

これで軽量継続制御が高速化される！

First: CbCコンパイラ実装の評価

CbCGCCとmicro-cで性能の比較

CbCGCCが実用的になったことで、micro-cとの比較が可能に
コンパイラの出力した実行ファイルを比較
CbCでのquicksort例題を用意
実行速度、ファイルサイズ
比較対象はまずは旧CbCGCC、それとmicro-c

実行環境

CbCGCC、micro-cでともに実行可能な環境を選択
アーキテクチャは x86, PowerPC(Cell含む)
OSはLinuxとOS Xを使用する

First: 性能評価（速度比較） vs.旧ver

速度測定結果(単位:秒)

	新CbCGCC		旧CbCGCC
	最適化無し	最適化有り	最適化無し	最適化有り
x86/OS X	5.907	2.434	4.668	3.048
x86/Linux	5.715	2.401	4.525	2.851

評価

最適化無の場合は遅くなった
最適化を行うと、約20%の高速化に成功
fastcallの効果が十分に出ている

First: 性能評価（速度比較）

速度測定結果(単位:秒)

	最適化なしのGCC	最適化付きのGCC	micro-c
x86/OS X	5.901	2.434	2.857
x86/Linux	5.732	2.401	2.254
ppc/OS X	14.875	2.146	4.811
ppc/Linux	19.793	3.955	6.454
ppc/PS3	39.176	5.874	11.121

結果(micro-cとの比較)

x86では速度にあまり差が出なかった
x86に特化しているmicro-cと差がないのはとても良い結果
PowerPCではCbCGCCが2倍ほど早い

この違いはどこから？

実際にアセンブラを出力して比較、その結果
x86は自由に使えるレジスタが少ないため、CbCGCCの最適化が効きにくい
演算の度にメモリ読み込み、演算、書き込みが発生する
レジスタの多いアーキテクチャではCbCGCCが断然有利になる
またCbC言語そのものもレジスタが多いアーキテクチャで有利

Second: Cとの相互利用

なぜそれが必要か

既存のソフトウェアを無駄にはできない
ソースコード上での互換性がある事が望ましい
CbCからCの関数を呼び出すのは問題ない
CからCbCのコードセグメントに継続するとスタックが保持されない

環境付き継続の導入

軽量継続に、スタックの情報を加える
関数からのみ使用可能

Second: Cとの相互利用

typedef code (*NEXT)(int);
int main(int argc, char **argv) {
  int i,a;
  i = atoi(argv[1]);
  a = factor(i);
  printf("%d! = %d\n", a);
}
int factor(int x) {
  NEXT ret = __return;
  goto factor0(1, x, ret);
}
code
factor0(int prod,int x,NEXT next) {
  if (x >= 1) {
    goto factor0(prod*x, x-1, next);
  } else {
    goto (*next)(prod);
  }
}

環境付き継続の使用例

__retunrで表される特殊なコードセグメント
コードセグメントからは通常のコードセグメントポインタに見える
この__returnに継続すると、元の関数の環境にリターン

Second: Cとの相互利用

内部関数を用いた実装

__returnが参照された場合にGCCが自動で内部関数を定義する
内部関数の中からは外の関数にgotoして脱出

int factor(int x) {
   int retval;

   code __return(int val) {
      retval = val;
      goto label;
   }
   if (0) {
     label:
      return retval;
   }

   NEXT ret = __return;
   goto factor0(1, x, ret);
}

Second: Cとの相互利用・評価

この取り組みにより

これにより、C with Continuation の仕様を満たした
ソースコードレベルで、Cと相互に利用することが可能になった

まとめ

本研究での取り組み

First

CbCGCCにて実用レベルのCbCプログラムが動作可能となった

軽量継続における引数順序の制限を取り除いた
PowerPCでの間接継続の制限を取り除いた
x86アーキテクチャにて高速化を行った

Second

Cとの相互利用性の向上

Third

ソースコードメンテナンス性の向上

まとめ

本研究での成果

成果1

CbCGCCがCとの相互利用も含むCbCのフルセットとして利用可能になった

成果2

CbCが多数のアーキテクチャに対応

20以上のアーキテクチャ
特に64bitのx86, SPUがうれしい

成果3

CbCの高速化

x86においてmicro-cと互角の速度を達成
PowerPCでは2倍の速度

今後の課題

Real-time、組込み向けに実用的なCbCプログラムの例題が欲しい
タブロー方を用いた検証
TaskManagerのCbC実装

CbC言語の今後

オブジェクティブなCbCの設計
データセグメントの導入
スケジューラのためのリフレクション

おわり

ありがとうございました

Continuation based C

言語仕様
return-callから軽量継続へ
コードセグメント
状態遷移に適した言語
Cとの互換性

First: PowerPCでの間接継続

継続制御での並列代入

本当に最適化で余分なコードが消えるのか？

最適化しない場合

 _test:
    stwu r1,-64(r1)
    mr r30,r1
    stw r3,88(r30)
    stw r4,92(r30)
    stw r5,96(r30)
    lwz r0,92(r30)
    stw r0,32(r30)
    lwz r0,96(r30)
    addic r0,r0,1
    stw r0,28(r30)
    lwz r0,88(r30)
    stw r0,24(r30)
    lwz r3,32(r30)
    lwz r4,28(r30)
    lwz r5,24(r30)
    addi r1,r30,64
    lwz r30,-8(r1)
    lwz r31,-4(r1)
    b L_next$stub

最適化した場合


_test:
    mr r0,r3
    mr r3,r4
    mr r4,r5
    mr r5,r0
    b L_next$stub

r3:=a, r4:=b, r5:=c
最適化しないとload, storeが満載
最適化すると無駄なload, store命令が消えている
実際はr0を使って4命令で入れ替えられる!

継続とはなんなのか？

継続

現在の処理を続行するための情報
- Cならば続く命令のアドレスや
- 命令に必要な値、
- スタックなど、その環境全てを含む

CbCでの軽量継続

継続からスタックに関する情報を落とす
続く命令とデータのみのシンプルな継続
命令はコードセグメント、引数はインタフェイスと呼ばれる

コードセグメントと軽量継続の記述

typedef code (*NEXT)(int);
int main(int argc, char **argv) {
  int i;
  i = atoi(argv[1]);
  goto factor(i, print_fact);
}
code factor(int x, NEXT next) {
  goto factor0(1, x, next);
}
code factor0(int prod,int x,NEXT next) {
  if (x >= 1) {
    goto factor0(prod*x, x-1, next);
  } else {
    goto (*next)(prod);
  }
}
code print_fact(int value) {
  printf("factorial = %d\n", value);
  exit(0);
}

実際のプログラム記述は？

コードセグメント定義
- codeキーワードで宣言
- 書式は関数と同じ
軽量継続制御
- gotoキーワードと引数
- コードセグメントの最初に飛ぶ
- コードセグメントポインタによる間接継続も可能

Cとの比較について

quicksort例題をCと比較すると

現在のところ、遅くなる
問題はquicksortという例題では必ずスタックが必要だということ
例題ではスタックを自前の構造体で用意している
そのため、ハードウェアで考慮されたスタックよりは遅い
状態遷移ベースの例題を作りたい

fastcall

実際の出力アセンブラ

fastcallにした場合

current:
    subl    $12, %esp
    movl    $30, 16(%esp)
    movl    $20, %edx
    movl    $10, %ecx
    addl    $12, %esp
    jmp     next

normalcallの場合

current:
    pushl   %ebp
    movl    %esp, %ebp
    movl    $30, 16(%ebp)
    movl    $20, 12(%ebp)
    movl    $10, 8(%ebp)
    leave
    jmp     next

命令数ではほとんど変化はない
引数2つがレジスタecxとedxに格納されるようになった
そのためメモリアクセスが減る
これで高速化されるはず

First: 性能評価（サイズ比較）

ファイルサイズの比較

組み込み系ではメモリ使用量が肝心
CbCGCCのサイズ最適化、速度最適化も対象とする
デバグ情報を付加しない、strip後のファイルサイズを比較

結果

	CbCGCC 速度最適化	CbCGCC サイズ最適化	micro-c
x86/OS X	9176	9176	9172
x86/Linux	5752	5752	5796
ppc/OS X	8576	8576	12664
ppc/Linux	10068	10068	9876
ppc/PS3	6960	6728	8636

結果考察

x86ではファイルサイズの差がない
ppcではOSによって違うが、OS Xでは3分の2に抑えることができている
サイズ最適化は必要ない、速度最適化で充分

並列代入

ある条件で末尾呼出が行われなくなる

~~呼出先関数の全引数が占めるスタックサイズが、呼出元関数のそれより大きい場合~~ 解決済み
引数を順にスタックに格納すると、書き込み前のデータが上が着されてしまう場合

問題となる例

code somesegment(int a, int b, int c) {
  /∗ do something ∗/
  goto nextsegment(b, c, a);
}

(a,b,c) = (b,c,a)と本質的に同じ。これが並列代入
a=b,b=c,c=aではだめ。aの値が失われる
必ず一つ(1ワード)以上の一時変数が必要になる

次の様に構文木を変更する

code somesegment(int a, int b, int c) {
  int a1, b1, c1;
  /∗ do something ∗/
  a1=a; b1=b; c1=c;
  goto nextsegment(b1, c1, a1);
}

これにより、引数順序を考える必要はなくなる
代わりに、メモリアクセスが大量に発生
しかし、これはGCCの最適化で除去される