Mercurial > hg > Papers > 2015 > sugi-master

\chapter{分散フレームワーク Alice の概要} \label{chapter:chapter1}
この章では、Aliceの計算モデルを説明した後、実際にどのように実装されているかを説明する。
\section{Data SegmentとCode Segment}\label{subsection:computation}
AliceはデータをData Segment、（以下DS）タスクをとCode Segment（以下CS）という単位に分割してプログラミングを行う。
DSはAliceが内部にもつデータベースによって管理されている。DSに対応する一意のkeyが設定されており、そのkeyを用いてデータベースを操作する。

CSは実行に必要なDSが揃うと実行されるという性質を持つ。そして入力されたDSに応じた結果が出力される。
入力されるDSはInput DS、出力されるDSはOutput DSと呼ばれる(図 \ref{fig:dsandcs})。Input DSはそのCSを実行するために必要なデータであり、Output DSはCSが計算を行った後に出力されるデータである。


\begin{figure}[htbp]
\begin{center}
\includegraphics[width=100mm]{images/dsandcs.pdf}
\end{center}
\caption{CSはInput DS とOutput DSをもつ}
\label{fig:dsandcs}
\end{figure}

CSに依存するデータであると出力されるデータを記述することにより、CSが実行される順番が決定される(図 \ref{fig:dsandcs2})。データの依存関係にないCSは並列実行が可能であるため、並列度を上げるためにはCSの処理内容を細かく分割して依存するデータを少なくするのが望ましい。


\begin{figure}[htbp]
\begin{center}
\includegraphics[width=110mm]{images/dsandcs2.pdf}
\end{center}
\caption{Input DS とOut put DSがCS間の依存関係を自動的に記述する}
\label{fig:dsandcs2}
\end{figure}

\section{ComputationとMeta Computation}
AliceのComputationは、keyで指し示されるDSを待ち合わせてCSを実行させると定義できる。
それに対して、AliceのMeta Computationは、AliceのComputationを支えているComputationのプログラミングと定義できる。

例えば、トポロジーを指定するAPIはMeta Computationである。Aliceが動作するためにはトポロジーを決める必要がある。つまりトポロジーの構成はAliceのComputationを支えているComputationとみなすことができる。トポロジーが決定するとそのトポロジーを構成する計算が行われる。トポロジーを指定するAPIはその構成の計算をプログラミングして変更するものである。
他にも再接続の動作を決めるAPIや切断時の動作を決めるAPIはMeta Computationである。

これらのMeta ComputationがAliceのComputationに影響することはない。プログラマーはCSを記述する際にトポロジーや切断、再接続という状況を予め想定した処理にする必要はない。プログラマーは目的の処理だけ記述する。そして、切断や再接続が起こった場合の処理を記述しMeta Computationで指定する。
このようにプログラムすることで、通常処理と例外処理を分離することができるため、シンプルなプログラムを記述できる。

\section{Data Segment}
複数のスレッドから１つのデータに変更を行うためには、データの不整合を防ぐためのlockが必要になる。
複数の関係のない要素を１つのデータオブジェクトで表現した場合、全ての操作でlockが必要になる。
このlockがスケラビリティーを低下させる。つまりデータのサイズも並列計算には重要である。

Aliceはデータを細かく分割して記述する。その細かく分割されたデータをDSと呼ぶ。
実際には特定のオブジェクトにマッピングされ、マッピングされたクラスを通してアクセスされる。

\section{Data Segment Manager}
DSは実際にはqueueに保存される。queueには対になるkeyが存在し、keyの数だけqueueが存在する。
このkeyを指定してDSの保存、取得を行う。
queueの集合体はデータベースとして捉えられる。
このデータベースをAliceではDS Manager（以下DSM）と呼ぶ。
DSMにはLocal DSMとRemote DSMが存在する。Local DSMは各ノード固有のデータベースである。
Remote DSMは他のノードのLocal DSMであり、接続しているノードの数だけ存在する。（図\ref{fig:RemoteDSM}）
Remote DSMにも対になるkeyが存在し、そのkeyを指定して利用する。
Local DSMへのアクセスはノード内部で逐次化される。

\begin{figure}[htbp]
\begin{center}
\includegraphics[width=100mm]{images/remote_datasegment.pdf}
\end{center}
\caption{Remote DSMは他のノードのLocal DSMのproxy }
\label{fig:RemoteDSM}
\end{figure}


\section{Data Segment API}
以下のData Segment APIを用いてデータベースにアクセスする。
\begin{itemize}
\item \verb+void put(String key, Object val)+
\item \verb+void update(String key, Object val)+
\item \verb+void peek(String key)+
\item \verb+void take(String key)+
\end{itemize}
putとupdateはDSを追加する際に、peekとtakeはDSを取得する際に使用する。

\subsubsection{put}
DSをqueueに追加するためのAPIである。第一引数に対応するqueueに対してDSを追加している。
\subsubsection{update}
updateもqueueに追加するためのAPIである。putとの違いは、先頭のDSを削除してからDSを追加することである。そのためAPI実行前後でqueueの中にあるDSの個数は変わらない。

\subsubsection{take}
takeはDSを読み込むためのAPIである。読み込まれたDSは削除される。要求したDSが存在しなければ、CSの待ち合わせ （Blocking）が起こる。putやupdateによりDSに更新があった場合、takeが直ちに実行される。

\subsubsection{peek}
peekもDSを読み込むAPIである。takeとの違いは読み込まれたDSが削除されないことである。

DSの表現にはMessage Packを利用している。Message Packに関してJavaにおけるデータ表現は以下の3種類があり、制限を伴うが互いに変換可能である。
\begin{itemize}
\item {\ttfamily 一般的なJavaのクラスオブジェクト}
\item {\ttfamily MessagePack for JavaのValueオブジェクト}
\item {\ttfamily byte[]で表現されたbinary}
\end{itemize}

DS APIの内部においてデータは、一般的なJavaのクラスオブジェクトまたはbyteArrayで表現されたbinaryで表現されている。
Localからデータがputされた場合は一般的なJavaのクラスオブジェクトの状態でenQueueされる。RemoteからデータがputされるとbyteArrayで表現されたbinaryの状態でenQueueされる。

ユーザーが一般的なクラスをIDL(Interface Definition Language)のように用いてデータを表現することができる。
この場合、クラス宣言時に@Messageというアノテーションをつける必要がある。もちろん、MessagePackで扱うことのできるデータのみをフィールドに入れなければならない。

Remoteに対してputできるデータは、@MessageをもつクラスオブジェクトかMessage Packで扱える型に限られる。

\section{Code Segment}
Alice上で実行されるタスクの単位がCSである。ユーザーはCSを組み合わせることでプログラミングを行う。CSをユーザーが記述する際に、内部で使用するDSの作成を記述する。

Input DS と Output DSはCSに用意されているAPIを用いて作成する。
Input DSは、LocalかRemoteか、またkeyを指定する必要がある。CSは、記述したInput DSが全て揃うとThread poolに送られ、実行される。

Output DSもLocalかRemoteか、またkeyを指定する必要がある。
Inputの場合はsetKeyを呼ぶ際、Outputの場合はput(またはupdate)の際にノードとkeyの指定を行っている。
しかし、どの時点でノードとkeyの指定を行えばよいか、どのようなAPIを用意するべきかは、議論の余地がある。

\section{Code Segmentの記述方法}
CSをユーザーが記述する際にはCSを継承して記述する(ソースコード \ref{src:StartCodeSegment} ,\ref{src:CodeSegment})。
継承することによりCode Segmentで使用するAPIを利用する事ができる。

\begin{table}[html]
\lstinputlisting[label=src:StartCodeSegment, caption=StartCodeSegmentの例]{source/StartCodeSegment.java}
\lstinputlisting[label=src:CodeSegment, caption=CodeSegmentの例]{source/TestCodeSegment.java}
\end{table}

Alice には、Start CS (ソースコード \ref{src:StartCodeSegment})というC の main に相当するような最初に実行される CS がある。
Start CSはどのDSにも依存しない。つまりInput DSを持たない。
このCSをmainメソッド内でnewし、executeメソッドを呼ぶことで実行を開始させることができる。

ソースコード \ref{src:StartCodeSegment}は、5行目で次に実行させたいCS（ソースコード \ref{src:CodeSegment}）を作成している。8行目でOutput DSMを通してLocal DSMに対してDSをputしている。
Output DSMはCSの{\tt ods}というフィールドを用いてアクセスする。
Output DSMは{\tt put}と{\tt update}を実行することができる。
\begin{itemize}
\item \verb+void put(String managerKey, String key, Object val)+
\item \verb+void update(String managerKey, String key, Object val)+
\end{itemize}
TestCodeSegmentはこの"cnt"というkeyに対して依存関係があり、8行目でupdateが行われるとTestCodeSegmentは実行される。

ソースコード\ref{src:CodeSegment}は、0から10までインクリメントする例題である。
2行目で取得されたDSが格納される受け皿を作る。Input DSMがもつcreateメソッド使うことで作成できる。
\begin{itemize}
\item {\ttfamily Receiver create(CommandType type)}
\end{itemize}

引数にはCommandTypeが取られ、指定できるCommandTypeは{\tt PEEK}または{\tt TAKE}である。
Input DSM はCSの{\tt ids}というフィールドを用いてアクセスする。

4行目から6行目はコンストラクタである。コンストラクタはオブジェクト指向のプログラミング言語で新たなオブジェクトを生成する際に呼び出されて内容の初期化を行う関数である。

TestCodeSegmentのコンストラクタが呼ばれた際には、
\begin{enumerate}
\item TestCodeSegmentが持つフィールド変数Receiver input1の定義が行われる。
\item 次にCSのコンストラクタが呼ばれ、CSが持つフィールド変数の定義と初期化が行われる。
\item {\tt ids.create(CommandType.TAKE)}が行われ、input1の初期化が行われる。
\item 最後にTestCodeSegmentのコンストラクタの5行目が実行される。
\end{enumerate}

5行目はInput DSMがもつsetKeyメソッドによりLocal DSMからDSを取得している。
\begin{itemize}
\item \verb+void setKey(String managerKey, String key)+
\end{itemize}
setKeyメソッドにより、どのDSMのあるkeyに対してpeekまたはtakeコマンドを実行させるかを指定できる。コマンドの結果がレスポンスとして届き次第CSは実行される。

runメソッドの内容としては10行目で取得されたDSをInteger型に変換してcountに代入している。
16行目で もう一度TestCodeSegmentのCSが作られる。
17行目でcountの値をインクリメントしてLocal DSMに値を追加する。
13行目が終了条件であり、countの値が10になれば終了する。

\section{Meta Data Segment}
DSは、アプリケーションに管理されているデータのことである。アプリケーションを構成するCSによってその値は変更される。
それに対してMeta DSは、分散フレームワークAliceが管理しているデータである。Aliceを構成するCSによってのみ、その値は変更される。一部のMeta DSはアプリケーションに利用することができる。

例えば、"start"というkeyでは、ノードがStart CSを実行可能かどうかの状態を表す。他にも"\_CLIST"というkeyでは、利用可能なRemote DSの一覧が管理されている。ユーザーはこの一覧にある名前を指定することで、動的にDSの伝搬などを行うことができる。

また、Input DSに付随しているものもある。Input DSはCS内部でReceiverという入れ物に格納される。ユーザーは、Receiverに対して操作することでDSを入手できる。
このReceiverには、fromというフィールドがあり、このDSを誰がputしたという情報が入っている。この情報をデータの伝搬する際に利用することで、DSをputしたノードに送り返すことを防ぐことができる。

Meta DSはDS同様にDS APIを用いて取得できる。

\section{Meta Code Segment}
CSはアプリケーションを動作させるために必要なタスクであり、ユーザーによって定義される。
それに対してMeta CSはAliceを構成するタスクである。つまりMeta CSの群はAliceのComputationと言い換えることができる。一部のみユーザーが定義をすることができ、Aliceの挙動を変更することができる。

\section{Topology Manager}
Aliceにおけるノードの管理は全てTopology Managerで管理される。Topology Managerの詳細は付録で示す。
author	sugi
date	Thu, 05 Feb 2015 04:23:37 +0900
parents	a27c97e0bb15
children	9d3fadcc379d