Papers/2022/kiyama-sigos: slide/slide.md comparison

comparison slide/slide.md @ 6:02066b6bd6e6 default tip

add 2022

author	kiyama <e185758@ie.u-ryukyu.ac.jp>
date	Thu, 13 Apr 2023 11:18:26 +0900
parents	22e459299d68
children

comparison

equal deleted inserted replaced

-:c8ffd012e8ab
+:02066b6bd6e6
 # 学科システム
 * 学科システムは約300人の学生と教員に対して様々なサービスを提供している
 * 学内ネットワークや、貸出用の仮想マシン (Virutal Machine: VM) など、授業や研究を円滑に進める為のサービスを、24時間365日提供している
 * 学科システムはシステム管理チームによって管理されている
-* 有志の職員と学生を中心に結成されている．
+* 有志の職員と学生を中心に構成されている．
-* 教師１名、職員２名、学生数名
+* 教師１名、職員２名、学生11名
 # 安定した運用の為の構築
 * 一般的にシステムを保守・運用する上で障害は必ず発生する
 * 悪意のある障害：外部からの攻撃
 * 悪意のない障害：ハードウェアなどの物理故障
 * 問題発生時にアラートを送信する監視システム(Prometherus)
 * ログの情報を集約する(Loki)
 * これらの情報を可視化する(Grafana)
 # 学科システムのトラブルの例
-1. クラウドサーバーのHDDが物理故障していた為アクセス不可 (8/2)
+1. クラウドサーバーのHDDが物理故障していた為アクセス不可 (2021/8/2)
-2. サーバー交換により復旧 (8/6)
+2. サーバー交換により復旧 (2021/8/6)
-3. 計画停電によりオンプレサーバーが故障 (8/10)
+3. 計画停電によりオンプレサーバーが故障 (2021/8/10)
-4. 復旧時にファームウェアアップデートによりKVMのIPv4が停止 (8/17)
+4. 復旧時にファームウェアアップデートによりKVMのIPv4が停止 (2021/8/17)
-1.はHDD故障アラームを処理していれば防げた可能性がある
+1.はHDD故障アラームを処理していれば早期に対応できた可能性がある
 # Gitlabトラブルの対処
 * Gitlabの自動アップデートはメジャーアップデートに対応してなかった
 * 学生に対しGitlabから不正なアクセスのメールを確認していたが調査しなかった
 * Gitlabの脆弱性を利用され攻撃に利用された
 * 新しいバージョンのGitlabを導入しアカウントを移行することで復旧
-Gitlabのログを監視していれば防げた可能性がある
+Gitlabのログを監視していれば対応できた
 # 監視システムでの問題
 * アラート送信の機能は運用する中で過不足が無いように調整が必要
 * 通常の編集方法ではサーバーにログインが必要
 * 作業内容はScrapboxに記述することになっている
 <img src="./img/monitoring_system-Page-3.drawio.svg" width="1000px">
 # 監視システム（サービス監視）
 grafanaでダッシュボードを用いて可視化
+nginxの例　サービスの状態、処理された接続の総数、接続の状態
 <img src="./img/grafana-prometheus.png" width="1000px">
 <!-- ![grafana](./img/grafana-prometheusのコピー.png) -->
 # 監視システム（ログ収集）
 下図がサービスのログを収集しブラウザで確認できるまでの流れである
 <img src="./img/loki-ページ3.drawio.svg" width="1000px">
 # 監視システム（ログ収集）
 grafanaのダッシュボードを用いて可視化
+sshの例  ログの総数、エラーの総数、単位時間ごとのログ出力の数
 <img src="./img/loki-dashboard.png" width="1000px">
 # 監視システム（アラート送信）
 右図がログに対しアラートルールを設定しMattermostからアラートを確認出来るまでの流れである
 <img src="./img/monitoring_system-Page-1.svg" width="1000px">
 # 監視システム（アラート送信）
 Mattermostに送信されるアラートは以下のような形式
-<img src="./img/Mattermost-alert.png" width="1000px">
+<img src="./img/Mattermost-alert.png" width="900px">
 # Mattermostでのアラートルール編集
 /から始まるコマンドを打つ事で設定したWeb APIにGET/POSTリクエストを送信可能
 以下がMattermostのスラッシュコマンドからアラートを編集するまでの流れ
 # スラッシュコマンド一覧
 以下が今回作成したスラッシュコマンド一覧
 | コマンド | 機能 |
 | ---- | ---- |
-| /alert add $name $label $pattern $time  |  アラートルールの追加  |
+| /alert add NAME LABEL PATTERN TIME  |  アラートルールの追加  |
 |||
-| /alert list  all $name  |  アラートルールの表示  |
+| /alert list  ALL NAME  |  アラートルールの表示  |
 |||
-| /alert delete $name |  アラートルールの削除  |
+| /alert delete NAME |  アラートルールの削除  |
 # Mattermostでのアラートルール編集
 以下のようにコマンドを用いることでアラートが編集可能
 図はaddを実行した結果
 <img src="./img/delete.png" width="1000px">
 # 設定例
 * 外部公開されているシステムの攻撃を検知する事が可能だと考える
-* 外部公開されているシステムの脆弱性をついた攻撃はPODTメソッドで行われる事が多い事から、一定時間に大量のPOSTがあった際に検知するよう設定することで攻撃を事前に防げる
+* 外部公開されているシステムの脆弱性をついた攻撃はPOSTメソッドで行われる事が多い
+* 一定時間に大量のPOSTがあった際に検知するよう設定することで攻撃を事前に防げる
-* 誤ったアラートルールを設定してしまい必要以上にアラートが発生する場合にはdeleteコマンドを使うことでMattermostからすぐに削除することができる
+* 誤ったアラートルールを設定した場合
+* 必要以上にアラートが発生する
+* deleteコマンドでMattermostからすぐに削除することができる
 # まとめ
 * 障害対応のための監視システムを提案した
 * Mattermostからアラートルールを編集できるスラッシュコマンドを作成した
 * CLI上での変更方法と比べて情報共有にかかる手間や調べる手間が少ない事から第三者が確認しやすいと考える
 # 今後の課題
 * 収集したデータのバックアップや提案環境の構築場所を運用にするに当たって改善する必要がある
 * 本研究では監視対象を限定したので稼働しているサービスすべてを監視する必要がある
 * 現在はオンプレ環境でのみ動作している為クラウドにセカンダリを構築し冗長化する必要がある
-* このアラートルール設定では管理者の技量に左右されてしまう為必要なアラートの選択
+* このアートルール設定では管理者の技量に左右されてしまう為改善する必要がある
 * チャットツールでは過去に遡っての確認が難しい為Gitlab Scrapboxとの連携する必要がある

Mercurial > hg > Papers > 2022 > kiyama-sigos

comparison slide/slide.md @ 6:02066b6bd6e6 default tip