Papers/2015/nozomi-sigos: paper/sigos.tex comparison

comparison paper/sigos.tex @ 8:1dd3a4150e7d

change

author	Nozomi Teruya <e125769@ie.u-ryukyu.ac.jp>
date	Wed, 06 May 2015 21:10:08 +0900
parents	00c88f26710c
children	a5958e372cee

comparison

equal deleted inserted replaced

-:00c88f26710c
+:1dd3a4150e7d
 TEL: (098)895-2221\qquad FAX: (098)895-8727\\
 email: kokubo@cr.ie.u-ryukyu.ac.jp}
 % 和文概要
 \begin{abstract}
-当研究室ではデータをData Segment、タスクをCode Segmentという単位で分割して記述する手法を提唱しており、そのプロトタイプとして並列分散フレームワークAliceを開発している。
+当研究室ではデータをData Segment、タスクをCode Segmentという単位で分割して記述する手法を提唱しており、それに基づく並列分散フレームワークAliceを開発している。Aliceが分散プログラムを記述する能力を有することは、Aliceを用いた水族館の例題、分散データベースJungle、木構造画面共有システムAliceVNCによって確認された。しかし、AliceVNCを作成するには、通信時にData Segmentを圧縮形式で扱える機能が必要である。本研究では、Data SegmentにObject型、MessagePackを使ったByteArray型、圧縮されたByteArray型の３つの表現を同時に持つメタ計算の設計と実装を行うことで、Data Segmentの多態性を用いた圧縮機能を実現した。
-　Aliceが分散プログラムを記述する能力を有することは確認された。しかし、Aliceで実用的なアプリケーションを作成するには、通信時にData Segmentの形式を選択できる機能が必要である。本研究では、Data Segmentの多態性を実現するため、Data SegmentをObject型、MessagePackを使ったByteArray型、圧縮されたByteArray型の３つの形式で表現できるメタ計算の設計と実装を行った。
 \end{abstract}
 % 英文概要　仮
 \begin{eabstract}
-lice is a prototype framework for distributed programming, which uses Data Segment and Code Segment as programming units. We checked Alice has an ability to write distributed program by previous research.
+Alice is a framework for distributed programming, which uses Data Segment and Code Segment as programming units.We checked Alice has an ability to write distributed program using aquarium example, distributed database Jungle and share screen system AliceVNC by previous research.
 But if programmer want to build Application by Alice, Alice need function of choice the Data Segment representation.
 In this paper, we add Alice computation of compress for achieving Data Segment polymerism. Data Segment has 3 type representation(Object type, ByteArray type using MessagePack, and compressed ByteArray type).
 \end{eabstract}
 \maketitle
 % 本文はここから始まる
 \section{研究背景と目的}
-当研究室ではデータをData Segment、タスクをCodeSegmentという単位で分割して記述する並列分散フレームワークAliceの開発を行っている。
+並列指向プログラミング言語Erlangでは、プロセスと呼ばれる独立性を備えたスレッドにPidという識別子
-Aliceでは分散環境の構築に必要な処理をMeta Computationとして提供することで、スケーラブルな分散プログラムを信頼性高く記述できる環境を実現している。
+が対応しており、Pidを指定してメッセージを送受信する手法を用いて並列分散環境を実現している。
+また、当研究室の先行研究であるFederated Lindaは、タプルというIDで番号付けられたデータの集合を相互接続された複数のタプルスペース（LindaServer）に出し入れするプログラミングモデルである。
-先行研究にてAlice が分散プログラムを記述する能力を有することは確認された。
+一方、AliceではString型のkeyに対応するQueueにデータが入っており、タスクはkeyを指定して必要なデータのみを出し入れするモデルを採用している。そのためタスクとデータの依存関係を分かりやすく記述でき、依存しない部分の並列実行が行える。また、Aliceでは分散環境の構築に必要な処理をMeta Computationとして提供することで、スケーラブルな分散プログラムを信頼性高く記述できる環境を実現している。
+先行研究の水族館の例題等において、Alice が分散プログラムを記述する能力を有することは確認された。
 だが、実用的な分散プログラムを作成するためには、受け取ったデータをそのまま転送したい場合や圧縮されたデータ形式で通信を行いたい場合がある。
-本研究では、 Aliceを用いて画面共有システムAliceVNCを実装するにあたり必要となった
+本研究では、 実用的なアプリケーションである画面共有システムTreeVNCをAliceで実装するにあたり必要となった圧縮機能を Meta Computation として実装した。
-flip機能と圧縮機能を Meta Computation として実装した。
 プログラムに Alice の制御を行うメタプログラムを記述することにより、
 扱うデータの形式を元のコードを大きく変更することなく指定することができる。
 そして、データの多態性を実現し、扱いたいデータの状態に合わせてDataSegmentManagerを切り替えることで、ノード間通信における自由度の向上を図った。
 \section{分散フレームワーク Alice の概要}
-\subsection{Data SegmentとCode Segment}
+\subsection*{「Data SegmentとCode Segment」}
 AliceはデータをData Segment、（以下DS）タスクをとCode Segment（以下CS）という単位に分割してプログラミングを行う。
 DSはAliceが内部にもつデータベースによって管理されている。DSに対応する一意のkeyが設定されており、そのkeyを用いてデータベースを操作する。
 CSは実行に必要なDSが揃うと実行されるという性質を持ち、入力されたDSに応じた結果が出力される。
 CSを実行するために必要な入力DSはInputDS、CSが計算を行った後に出力されるDSはOutput DSと呼ばれる。データの依存関係にないCSは並列実行が可能であるため、並列度を上げるためにはCSの処理内容を細かく分割して依存するデータを少なくするのが望ましい。
-\subsection{Data Segment}
+\subsection*{「Data Segment」}
 複数のスレッドから１つのデータに変更を行うためには、データの不整合を防ぐためのlockが必要になる。複数の関係のない要素を１つのデータオブジェクトで表現した場合、全ての操作でlockが必要になる。このlockがスケラビリティーを低下させる。つまりデータのサイズも並列計算には重要である。
 Aliceはデータを細かく分割して記述する。その細かく分割されたデータをDSと呼ぶ。
 実際には特定のオブジェクトにマッピングされ、マッピングされたクラスを通してアクセスされる。
-\subsection{Data Segment Manager}
+\subsection*{「Data Segment Manager」}
 DSは実際にはqueueに保存される。queueには対になるkeyが存在し、keyの数だけqueueが存在する。
 このkeyを指定してDSの保存、取得を行う。queueの集合体はデータベースとして捉えられる。このデータベースをAliceではDS Manager（以下DSM）と呼ぶ。DSMにはLocal DSMとRemote DSMが存在する。Local DSMは各ノード固有のデータベースである。Remote DSMは他のノードのLocal DSMのproxyであり、接続しているノードの数だけ存在する。（図\ref{fig:RemoteDSM}）Remote DSMに対して書き込むと対応するノードのLocal DSMに書き込まれる。
 \begin{figure}[htbp]
 \begin{center}
 \end{center}
 \caption{Remote DSMは他のノードのLocal DSMのproxy }
 \label{fig:RemoteDSM}
 \end{figure}
-\subsection{Data Segment API}
+\subsection*{「Data Segment API」}
 以下のData Segment APIを用いてデータベースにアクセスする。
 putとupdateはDSを追加する際に、peekとtakeはDSを取得する際に使用する。
 \begin{itemize}
 \item {\ttfamily void put(String managerKey, String key, \\ Object val)}
 \item {\ttfamily void peek(String managerKey, String key)}
 \end{itemize}
 peekもDSを読み込むAPIである。takeとの違いは読み込まれたDSが削除されないことである。
-\subsection{Data Segmentの表現}
+\subsection*{「Data Segmentの表現」}
 DSの表現にはMessagePack for Javaを利用している。
 \begin{itemize}
 \item {\ttfamily DSは一般的なJavaのクラスオブジェクト}
 \item {\ttfamily MessagePackを用いて変換したbyte[]で表現されたバイナリオブジェクト}
 \end{itemize}
 の２種類があり、LocalDSMにputされた場合は一般的なJavaのクラスオブジェクトとしてenQueueされる。
 RemoteDSMにputされた場合は通信時にbyteArrayに変換されたバイナリオブジェクトがenQueueされる。
-\subsection{Code Segment}
+\subsection*{「Code Segment」}
 Alice上で実行されるタスクの単位がCSである。ユーザーはCSを組み合わせることでプログラミングを行う。CSをユーザーが記述する際に、内部で使用するDSの作成を記述する。
 Input DS と Output DSはCSに用意されているAPIを用いて作成する。
 Input DSは、LocalかRemoteか、またkeyを指定する必要がある。CSは、記述したInput DSが全て揃うとThread poolに送られ、実行される。
 Output DSもLocalかRemoteか、またkeyを指定する必要がある。
 Inputの場合はsetKeyを呼ぶ際、Outputの場合はput(またはupdate)の際にノードとkeyの指定を行っている。
 しかし、どの時点でノードとkeyの指定を行えばよいか、どのようなAPIを用意するべきかは、議論の余地がある。
-\subsection{Code Segmentの記述方法}
+\subsection*{「Code Segmentの記述方法」}
 CSをユーザーが記述する際にはCSを継承して記述する(ソースコード \ref{src:StartCodeSegment} ,\ref{src:CodeSegment})。
 継承することによりCode Segmentで使用するAPIを利用する事ができる。
 \begin{table}[html]
 \lstinputlisting[label=src:StartCodeSegment, caption=StartCodeSegmentの例]{source/StartCodeSegment.java}
 runメソッドの内容としては10行目で取得されたDSをInteger型に変換してcountに代入している。
 16行目で もう一度TestCodeSegmentのCSが作られる。
 17行目でcountの値をインクリメントしてLocal DSMに値を追加する。
 13行目が終了条件であり、countの値が10になれば終了する。
-\subsection{ComputationとMeta Computation}
+\subsection*{「ComputationとMeta Computation」}
 AliceのComputationは、keyで指し示されるDSを待ち合わせてCSを実行させると定義できる。
 それに対して、AliceのMeta Computationは、AliceのComputationを支えているComputationのプログラミングと定義できる。
 例えば、トポロジーを指定するAPIはMeta Computationである。Aliceが動作するためにはトポロジーを決める必要がある。つまりトポロジーの構成はAliceのComputationを支えているComputationとみなすことができる。トポロジーが決定するとそのトポロジーを構成する計算が行われる。トポロジーを指定するAPIはその構成の計算をプログラミングして変更するものである。
 他にも再接続の動作を決めるAPIや切断時の動作を決めるAPIはMeta Computationである。
 これらのMeta ComputationがAliceのComputationに影響することはない。プログラマーはCSを記述する際にトポロジーや切断、再接続という状況を予め想定した処理にする必要はない。プログラマーは目的の処理だけ記述する。そして、切断や再接続が起こった場合の処理を記述しMeta Computationで指定する。
 このようにプログラムすることで、通常処理と例外処理を分離することができるため、シンプルなプログラムを記述できる。
-\subsection{Meta Data Segment}
+\subsection*{「Meta Data Segment」}
 DSは、アプリケーションに管理されているデータのことである。アプリケーションを構成するCSによってその値は変更される。
 それに対してMeta DSは、分散フレームワークAliceが管理しているデータである。Aliceを構成するCSによってのみ、その値は変更される。一部のMeta DSはアプリケーションに利用することができる。
 例えば、"start"というkeyでは、ノードがStart CSを実行可能かどうかの状態を表す。他にも"\_CLIST"というkeyでは、利用可能なRemote DSの一覧が管理されている。ユーザーはこの一覧にある名前を指定することで、動的にDSの伝搬などを行うことができる。
 また、Input DSに付随しているものもある。Input DSはCS内部でReceiverという入れ物に格納される。ユーザーは、Receiverに対して操作することでDSを入手できる。
 このReceiverには、fromというフィールドがあり、このDSを誰がputしたという情報が入っている。この情報をデータの伝搬する際に利用することで、DSをputしたノードに送り返すことを防ぐことができる。
 Meta DSはDS同様にDS APIを用いて取得できる。
-\subsection{Meta Code Segment}
+\subsection*{「Meta Code Segment」}
 CSはアプリケーションを動作させるために必要なタスクであり、ユーザーによって定義される。
 それに対してMeta CSはAliceを構成するタスクである。つまりMeta CSの群はAliceのComputationと言い換えることができる。一部のみユーザーが定義をすることができ、Aliceの挙動を変更することができる。
 \section{Aliceの新機能}
 実用的なアプリケーションであるTreeVNCをAlice上で実装することで、Aliceに必要な機能を洗い出した。
-\subsection{flip機能}
+\subsection*{「flip機能」}
-Data Segment APIのput、updateを呼ぶとOutput Data Segmentが毎回新しく作成される。そして出力するデータのコピーが行われる。
+Data Segment APIのput、updateを呼ぶとOutput Data Segmentが毎回新しく作成され、出力するデータのコピーが行われる。しかし、Input Data Segmentとして取得したデータをそのまま子ノードにOutput Data Segmentとして出力する場合、コピーを行なうのは無駄である。
-しかし、AliceVNCのようにInput Data Segmentとして取得したデータをそのまま子ノードにOutput Data Segmentとして出力する場合、コピーを行なうのは無駄である。
+そこで、Input Data SegmentとOutput Data Segmentを交換する機能をflip機能として実装した。
-そこで、このコピーを無くしData Segmentの更新におけるオーバーヘッドを減らす方法としてflip機能の実装を行った。
+ソースコード\ref{src:exampleFlip}のようにInput Data SegmentであるReceiverをコピーせずにflipメソッドに引数として渡すことで、コピーのオーバーヘッドをなくしている。
-ソースコード\ref{src:exampleFlip}のようにInput Data SegmentであるReceiverをflipメソッドに引数として渡すことで、無駄なコピーを減らす。
+TreeVNCでは親ノードから受け取った画面データをそのまま子ノードに配信するため、Meta Computationとしてflip機能が使えることは有用である。
 \begin{table}[html]
 \lstinputlisting[label=src:flipAlice, caption=Aliceにおけるflip]{source/flip.java}
 \end{table}
 \begin{table}[html]
 \lstinputlisting[label=src:exampleFlip,caption=flipの使用例]{source/Sort.java}
 \end{table}
-\subsection{Data Segmentの表現の追加（圧縮機能）}
+\subsection*{「Data Segmentの表現の追加（圧縮機能）」}
 TreeVNCでは画面配信の際、データを圧縮してノード間通信を行っている。
 そのため、AliceVNCにも圧縮されたデータ形式を扱える機能が必要だと考えた。
 しかし、ただデータを圧縮する機構を追加すればいいわけではない。
 AliceVNCでは、ノードは受け取った画面データを描画すると同時に、子ノードのRemote DS Managerに送信する。
 \item 一般的なJavaのクラスオブジェクト
 \item MessagePack for Javaでシリアライズ化されたバイナリオブジェクト
 \item 2を圧縮したバイナリオブジェクト
 \end{enumerate}
-ソースコード\ref {src:ReceiveData}はReceiveData.classが持つ表現であり、{\tt val}に1. 一般的なJavaのクラスオブジェクト の表現でデータ本体が保存される。{\tt messagePack}には2. シリアライズ化されたバイナリオブジェクトが保存され、通常のRemoteDSMへの通信にこの表現が扱われる。そして、{\tt zMessagePack}には3. 圧縮されたバイナリオブジェクトが保存される。
+ソースコード\ref {src:ReceiveData}はReceiveData.classが持つ表現であり、{\tt val}に(1) 一般的なJavaのクラスオブジェクト の表現でデータ本体が保存される。{\tt messagePack}には(2) シリアライズ化されたバイナリオブジェクトが保存され、通常のRemoteDSMへの通信にこの表現が扱われる。そして、{\tt zMessagePack}には(3) 圧縮されたバイナリオブジェクトが保存される。
 \begin{table}[html]
 \lstinputlisting[label=src:ReceiveData, caption=データを表現するクラス]{source/ReceiveData.java}
 \end{table}
-また、圧縮状態を持つDSを扱うDSMとしてLocalとRemoteそれぞれにCompressed Data Segment Managerの追加した。
+また、圧縮状態を持つDSを扱うDSMとしてLocalとRemoteそれぞれにCompressed Data Segment Managerの追加した。Compressed DSMの内部では、put/updateが呼ばれた際にReceiveData.classが圧縮表現を持っていればそれを使用し、持っていなければその時点で圧縮表現を作ってput/updateを行う。
-put/updateでは、ソースコード\ref{src:zput}のように指定するDSM名の先頭に"compressed"をつけることでDSは自動で圧縮状態も持つようになる。さらに、take/peekもソースコード\ref{src:ztake}のようにsetKeyを実行する際にDSM名の先頭に"compressed"をつけることで圧縮形式でDSを受け取ることができる。
+ユーザが圧縮形式での通信を行いたい場合、ソースコード\ref{src:zput}、\ref{src:ztake}のように指定するDSM名の先頭に"compressed"をつけることでCompressed DSM内部の圧縮Meta Computationが走りDSを圧縮状態で扱うようになる。
 \begin{table}[html]
 \lstinputlisting[label=src:zput, caption=圧縮DSのput]{source/compress_put.java}
 \end{table}
 \begin{table}[html]
 \lstinputlisting[label=src:ztake,caption=圧縮DSのtake]{source/compress_take.java}
 \end{table}
-これによりユーザは指定するDSMを変えるだけで、他の計算部分を変えずに圧縮表現を持つDSを扱うことができる。
+これによりユーザは指定するDSMを変えるだけで、他の計算部分を変えずに圧縮表現を持つDSを扱うことができる。ノードは圧縮されたDSを受け取った後、そのまま子ノードにflipすれば圧縮状態のまま送信されるので、送信の際の再圧縮がなくなる。
+画面表示の際は{\tt asClass()}(ソースコード\ref {src:asClass} )を使うことで適切な形式でデータを取得できる。
-ノードは圧縮されたDSを受け取った後、そのまま子ノードにflipすれば圧縮状態のまま送信されるので、送信の際の再圧縮がなくなる。
+{\tt asClass()}はDSを目的の型にcastするメソッドであり、ReceiveData.classが圧縮表現だけを持っている場合はこのメソッド内で解凍してcastを行っている。
-また、画面表示の際は{\tt asClass()}(ソースコード\ref {src:asClass} )を使うことで適切な形式でデータを取得できる。
+これによりDSの表現を必要になったときにその場で作成できる。
-{\tt asClass()}はDSを目的の型にcastするメソッドであり、圧縮されていれば解凍してcastを行っている。
-これにより必要なDSを必要な時にだけ解凍できる。
 \begin{table}[html]
 \lstinputlisting[label=src:asClass, caption=asClassの処理]{source/asClass.java}
 \end{table}
-\subsection{パケットの再設計}
+\subsection*{「パケットの再設計」}
-2.5で述べたように、Remoteからputされたデータは必ずシリアライズ化されておりbyteArrayで表現される。
+2章「Data Segmentの表現」で述べたように、Remoteからputされたデータは必ずシリアライズ化されておりbyteArrayで表現される。
 しかし、データの表現に圧縮形式を追加したことで、RemoteからでもputされたbyteArrayが圧縮されているのかそうでないのかが判断できなくなった。
 そこで、データの状態を表すフラグをヘッダに含めてパケットを構成するように変更した。
-Aliceの通信におけるヘッダにあたるCommandMessage.class(ソースコード\ref {src:CommandMessage}にシリアライズ状態表すフラグと、圧縮状態を表すフラグを追加した。
+Aliceの通信におけるヘッダにあたるCommandMessage.class(ソースコード\ref {src:CommandMessage})にシリアライズ状態表すフラグと、圧縮状態を表すフラグを追加した。
 これによってputされたDSMはフラグに応じた適切な形式でReceiveData.class内にDSを格納できる。
 また、CommandMessage.classに圧縮前のデータサイズも追加したことで、適切な解凍が可能になった。
 \begin{table}[html]
-\lstinputlisting[label=src:CommandMessage, caption=変更後のCommandMessage]{source/CommandMessage.java}
+\lstinputlisting[label=src:CommandMessage, caption=CommandMessage]{source/CommandMessage.java}
 \end{table}
 \begin{table}[htbp]
 \caption{CommandMessageの変数名の説明}
 \label{tb:variable}
 次に、Aliceが実用的なアプリケーションを記述するために必要なMeta Computationとして、データの多態性を実現し、指定するDSMの切り替えで扱うデータ表現を変えるようにした。
 これにより、必要に応じた形式を扱うことができ、ユーザが記述するComputation部分を大きく変えずに自由度の高い通信を行うことが可能になった。
 同様の手法を用いれば、圧縮形式以外にも暗号形式・JSON形式などの複数のデータ表現をユーザに扱いやすい形で拡張することができる。
-今後の課題としては、より実用的なアプリケーションを記述するために、データの永続性の確保等が挙げられる。
+今後の課題としては、圧縮機能をAliceVNCで用いることで有効性を測る必要がある。また、AliceのMeta ComputationにProxy機能を実装することで、TreeVNCでは実装が困難であったNAT越えの機能を提供できると期待される。
-現在のAliceはOn memoryであるためプロセスの終了とともにDS全て失われてしまう。この問題を解決するには、DSを他のKey Value Store等のシステムに保存し、永続性を確保する必要がある。
 \nocite{*}
 %\nocite{opencl}
 %\nocite{opencl:ref}
 %\nocite{opencl:applied}

Mercurial > hg > Papers > 2015 > nozomi-sigos

comparison paper/sigos.tex @ 8:1dd3a4150e7d