annotate paper/chapter1.tex @ 2:33246fe15eb5

edit omnigraffle
author sugi
date Mon, 29 Dec 2014 06:22:37 +0900
parents cf3a4335c64a
children cacc83aea539
Ignore whitespace changes - Everywhere: Within whitespace: At end of lines:
rev   line source
0
295b393a7134 first commit
sugi
parents:
diff changeset
1 \chapter{分散フレームワーク Alice の概要} \label{chapter:chapter1}
2
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
2 Aliceは、本研究室で開発を行っている分散タスク管理フレームワークである。Cell用のOpen CLに似たTask管理フレームワークCeriumとLindaを相互に接続した分散フレームワークであるFederated Lindaの開発を通して得られた知見が生かされている。
1
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
3
2
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
4 Ceriumでは、Taskを小さく分割して並列実行し、データ転送はパイプライン実行により隠される。Task間に依存関係があるが、実際にはデータの依存関係がそのままTaskの依存関係になることが多い。繰り返し使われるデータ構造の管理が重要であり、実行時にわかるデータ構造間の依存関係がTaskを複雑にしている。
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
5
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
6 Federated Lindaでは、Lindaサーバ内部にMeta Engineと呼ばれるLindaのタプル(データ構造)をやり取りする部分を作成した。Meta Engineでは、タプルのやり取りによって起動するcall backを使うが、call backによる記述が分散してしまい、可読性を落としてしまう。また、複数のタプルの待ち合わせが重要だが、その待ち合わせはsingle threadedなMeta Engine内部の状態に依存する。
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
7
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
8 これらが示しているのは、並列分散実行はコードの並列実行だけでなく、データの単位が重要だということである。そこで、AliceはData SegmentとCode Segmentという単位でデータと処理を細かく分割し、それぞれの依存関係を記述して分散プログラムを作成する。Code SegmentはContinuation based Cの実行単位であり、その双対がData Segmentである。
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
9
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
10 Data SegmentはCode Segmentと分離されたデータ構造であり、オブジェクトではない。オブジェクト指向プログラミングが状態を複雑に持ち、並列実行や分散実行に向かないことは徐々に理解されてきている。一方で、状態自体は有限状態遷移機械(Finite State Machine/FSM)で記述するのが自然である。Code Segmentは状態遷移記述そのものであり、その状態遷移はData Segmentの到着によってトリガーされる。
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
11
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
12 カプセル化されたデータをプロセスがやり取りするのは、DFD(Data Flow Diagram)の古典的な手法であり、それ自体は新しくはない。むしろ、メインフレーム上でのソフトウェア開発に良く使われてきた手法である。Alice では、それを再実装する。
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
13
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
14 AliceはCode SegmentとData SegmentをJavaとMessage Packで実装したフレームワークである。Topology Managerを持ち、Blade上での
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
15 分散プログラムの実験を容易に行うことができる。また、SEDA Architectureを採用しており、マルチコア上でのスループットの向上を期待している。
1
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
16
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
17 \section{Data Segment}
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
18 Data Segmentはデータを細かく分割したものであり、数値や文字列などのデータを構造的に保持する。AliceはData Segmentをデータベースとして扱っている。Data Segmentには必ず対になるKeyが存在する。つまりKey Value Storeとして考える事ができる。
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
19
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
20 Aliceのデータベースは通常のKVSとは異なっている点がある。通常のKVSはプログラミング言語の連想配列やMapと同様に 「Key(キー)」と「Value(値)」がペアとなっている。そのため1つのKeyに対して値は1つである。しかし、Aliceの場合は「Key」と「Queue」がペアとなっているため、Keyに対して複数回putできる。従って取得できるValueも複数存在できる。便宜上これをKey Value Queueと呼ぶものとする。Key毎の追加と取得はLindaに準じた設計になっている。
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
21
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
22 Data SegmentはData Segment Manager(以下DSM)によって管理されている。ノード毎にLocal DSMとRemote DSMが存在する。Local DSMは各ノード固有のKVSとなっている。従ってRemote DSMを指定するKeyはノード内部でuniqueなものである。Remote DSMは他のノードのLocal DSMのproxyと考えられる。つまりRemote DSMは複数存在し、それぞれに対応するノードは異なる。
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
23
2
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
24 \begin{figure}[htbp]
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
25 \begin{center}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
26 \includegraphics{images/remote_datasegment.pdf}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
27 \end{center}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
28 \caption{Remote DSMは他のノードのLocal DSMのproxy }
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
29 \label{fig:RemoteDSM}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
30 \end{figure}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
31
1
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
32 KVQへのアクセスはqueueによって、ノード内部で逐次化される。それ以外は、すべてJavaのThread Poolにより並列実行される。
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
33 \subsection{Data Segment API}
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
34 以下が用意されているData Segment APIである。これらを用いてデータの送受信を行う。
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
35 \begin{itemize}
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
36 \item {\ttfamily void put(String key, Object val)}
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
37 \item {\ttfamily void update(String key, Object val)}
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
38 \item {\ttfamily void peek(Receiver receiver, String key)}
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
39 \item {\ttfamily void take(Receiver receiver, String key)}
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
40 \end{itemize}
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
41 \subsubsection{put}
2
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
42 putはデータをQueueに追加するためのAPIである。Lindaのout()に相当する。(図 \ref{fig:put})
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
43 \begin{figure}[htbp]
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
44 \begin{center}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
45 \includegraphics[width=100mm]{images/put.pdf}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
46 \end{center}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
47 \caption{queueにデータを追加する}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
48 \label{fig:put}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
49 \end{figure}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
50
1
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
51 \subsubsection{update}
2
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
52 updateはデータを置き換える特急メッセージのように動作する。Lindaのupdate()に相当する。(図 \ref{fig:update})
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
53 \begin{figure}[htbp]
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
54 \begin{center}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
55 \includegraphics[width=100mm]{./images/update.pdf}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
56 \end{center}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
57 \caption{update"は先頭データを取り除き、queueにデータを追加する}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
58 \label{fig:update}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
59 \end{figure}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
60
1
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
61 \subsubsection{peek}
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
62 peekはデータを読み込むAPIである。読み込まれたデータはQueueに残る。要求したデータが存在しなければ、Code Segmentの待ち合わせ (Blocking)が起こる。putやupdateによりデータに更新があった場合、peekが直ちに実行される。Lindaのread()に相当する。
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
63 \subsubsection{take}
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
64 takeもデータを読み込むためのAPIである。読み込まれたデータはQueueから削除される。Lindaのin()に相当する。
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
65 \subsection{Data Segment の表現}
2
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
66 Data Segmentの表現にはMessage Packを利用している。Message Packに関してJavaにおけるデータ表現は以下の3種類があり、制限を伴うが互いに変換可能である。
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
67 \begin{itemize}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
68 \item {\ttfamily 一般的なJavaのクラスオブジェクト}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
69 \item {\ttfamily MessagePack for JavaのValueオブジェクト}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
70 \item {\ttfamily byte[]で表現されたbinary}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
71 \end{itemize}
1
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
72
2
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
73 Data Segment APIの内部においてデータは、一般的なJavaのクラスオブジェクトまたはbyteArrayで表現されたbinaryで表現されている。
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
74 Localからデータがputされた場合は一般的なJavaのクラスオブジェクトの状態でenqueueされる。RemoteからデータがputされるとbyteArrayで表現されたbinaryの(シリアライズされた)状態でenqueueされる。
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
75
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
76 ユーザーが一般的なクラスをIDL(Interface Definition Language)のように用いてデータを表現することができる。
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
77 この場合、クラス宣言時に@Messageというアノテーションをつける必要がある。もちろん、MessagePackで扱うことのできるデータのみをフィールドに入れなければならない。
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
78
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
79 Remoteに対してputできるデータは、@MessageをもつクラスオブジェクトかMessage Packで扱える型に限られる。
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
80
1
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
81 \section{Code Segment}
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
82 Code SegmentとはAlice上で実行されるタスクの単位である。ユーザーはCode Segmentを組み合わせることでプログラミングを行う。Code Segmentをユーザーが記述する際に、内部で使用するData Segmentの作成を記述する。入力時のData SegmentをInput Data Segment、出力時をOutput Data Segmentと呼ぶ。Input Data SegmentとOutput Data SegmentによってCode Segmentの間の依存関係が自動的に記述される。
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
83
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
84 Input Data Segment と Output Data SegmentはCode Segmentに用意されているAPIを用いて作成する。
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
85 Input Data Segmentは、LocalかRemoteか、またkeyを指定する必要がある。Code Segmentは、記述したInput Data Segmentが全て揃うとThread poolに送られ、実行される。
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
86
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
87 Out Data SegmentもLocalかRemoteか、またkeyを指定する必要がある。
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
88
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
89 現在、Inputの場合はsetKeyを呼ぶ際、Outputはput(またはupdate)の際にノードとkeyの指定を行っている。
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
90 しかし、どの時点でノードとkeyの指定を行えばよいか、どのようなAPIを用意するべきかは、議論の余地がある。
2
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
91 \section{Meta Data Segment}
0
295b393a7134 first commit
sugi
parents:
diff changeset
92 \section{Meta Code Segment}
1
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
93
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
94 \section{Topology Manager}
2
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
95 Aliceは複数のノードで構成され、相互に接続される。通信するノードはURLにより直接指定するのではなくTopology Managerで管理する。
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
96 Topology Managerはトポロジーダイルを読み込み、参加を表明したクライアント(以下、Topology Node)に接続するべきTopology NodeのIPアドレス、ポート番号、接続名を送りトポロジーファイルに記述されたとおりにトポロジーを作成する。(図\ref{fig:topologymanager})
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
97
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
98 \begin{figure}[htbp]
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
99 \begin{center}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
100 \includegraphics{images/topologymanager.pdf}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
101 \end{center}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
102 \caption{Topology Manager はトポロジーファイルの記述に従ってトポロジーを生成する}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
103 \label{fig:topologymanager}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
104 \end{figure}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
105
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
106 Code Segment内部でRemote DSMにアクセスする場合はToplogyManagerによって指定されたノード内部だけで有効なlabel(文字列)を使う。これにより特定のURLがCode Segment内部に記述されることを防いでいる。
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
107 \subsection{トポロジーファイルの記述方法}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
108
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
109 Topology Managerが読み込むトポロジーファイルは Languageと呼ばれる言語で記述する。
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
110 DOT Languageはプレーンテキストを用いてデータ構造としてのグラフ構造を表現するデータ記述する言語の一種である。
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
111 このDOT Languageを用いてクライアント間の接続を表現する。
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
112
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
113 クライアント間の接続はlabelを用いて名前が割り振られている。この接続名を指定することでユーザーは他のノードのRemote Data Segmentにアクセスすることができる。ReceiverにsetKeyを行う際、odsでput、updateする際のmanagerKeyがlabelである。(図\ref{fig:ring})
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
114
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
115 \begin{table}[htbp]
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
116 \lstinputlisting[label=ring, caption=3台でリングを組んだ時の例]{source/ring.dot}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
117 \end{table}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
118
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
119 テキストのみではユーザーが望む形のトポロジーかどうかを判断しにくい。ノードの数が少なければ、可能であるがノードの数が増加するに連れて困難になるが、dotコマンドを用いることでその問題を解決することができる。
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
120 dotコマンドでトポロジーファイルを画像として出力することができるので、記述したトポロジーが正しいことを可視化して判断することができる。
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
121
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
122 \begin{figure}[htbp]
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
123 \begin{itemize}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
124 \item {\ttfamily dot -T png ring.dot -o ring.png}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
125 \end{itemize}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
126
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
127 \begin{center}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
128 \includegraphics{images/ring.pdf}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
129 \end{center}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
130 \caption{dotコマンドで作成された3台で構成されたリングのグラフ}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
131 \label{fig:ring}
33246fe15eb5 edit omnigraffle
sugi
parents: 1
diff changeset
132 \end{figure}
1
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
133
cf3a4335c64a add source code and modify chapters
gi
parents: 0
diff changeset
134 \section{Aliceによるプログラミング手法}