TOPサーバ構築・運用> 障害発生!そのときどこを見る?
Hinemos
運用管理ツール「Hinemos」完全利用ガイド

第3回:Hinemosを利用した運用監視で何が把握できる?

著者:NTTデータ  宮本 洋輔   2006/12/25
前のページ  1  2  3  次のページ
障害発生!そのときどこを見る?

   画面に緑の「通知」という状態が表示されていれば、監視対象が正常な状態であるということなので、それで確認が終わります。しかしひとたび障害が発生すると、障害の内容を把握し対応する必要があります。

   ここでは、表2の監視を行っている環境下で障害が発生した場合の対応を説明します。
監視項目 グループ 監視間隔 説明
ping監視 システム全体 1分 Hinemosとの通信が可能かを監視
プロセス監視 Webサーバ 5分 httpプロセスの監視
プロセス監視 APサーバ 5分 tomcatプロセスの監視
SNMP監視 サーバ 1分 サービス側ネットワークインターフェースの監視
syslog-ng監視 システム全体 - システム障害のメッセージを検出

表2:今回の例で行う監視

   例えば、Webサイトの表示に時間がかかるという障害が発生したとします。障害発生時にメール送信を行うように設定している場合、図4のようなメールが管理者の元に届きます。

障害通知メールの例
図4:障害通知メールの例
(画像をクリックすると別ウィンドウに拡大図を表示します)

   管理者が状態の把握と対応のためにHinemosクライアントの画面を表示すると、統合監視画面の業務システムの状態は赤の「危険」となっています。そこから赤の「危険」となっているグループをドリルダウンしていくと、「Webサーバ01」に問題があることがわかります(図5)。

統合画面
図5:統合画面
(画像をクリックすると別ウィンドウに拡大図を表示します)

   そこで、ステータス画面で「Webサーバ01」を選択すると図6のステータスが表示されます。

Webサーバ01のステータス
図6:Webサーバ01のステータス
(画像をクリックすると別ウィンドウに拡大図を表示します)

   ここから以下のことを把握することができます。

  • ping監視ができてきるので、Webサーバ01自体は起動している
  • HTTPのプロセスは起動している
  • Webサーバ01の業務側のネットワークがダウンしている

表3:把握できること

   よって障害への対応は「Webサーバ01」のネットワークインターフェースを重点的に確認すればよいことになります。このように障害の原因を的確に認識することができます。


構成変更 - 新しい機器はうまく動いているか?

   例えば、「Webサーバ01」がハードウェア故障により利用不能になり、新しいサーバ「Webサーバ03」で置き換える必要が生じたとします。この場合はリポジトリ管理機能で、「Webサーバ03」をノードとして登録し、Webグループから「Webサーバ01」を削除し、「Webサーバ03」を追加すれば監視設定側は一切変更することなく監視を継続することができます(図7)。

ハードウェアの変更と監視
図7:ハードウェアの変更と監視

   つまり、構成変更を行った直後からping監視やプロセス監視、SNMP監視が有効になります。監視の結果、状態が緑の「通知」と表示されれば、システムが正常に動作しているということです。

前のページ  1  2  3  次のページ


株式会社NTTデータ  宮本 洋輔
著者プロフィール
株式会社NTTデータ  宮本 洋輔
基盤システム事業本部 オープンソース開発センタ
2003年、株式会社NTTデータに入社。入社以来セキュリティや運用管理などのシステム管理OSSに関する研究開発に従事。現在はHinemosの開発とコミュニティ作りに活動している。


INDEX
第3回:Hinemosを利用した運用監視で何が把握できる?
  運用管理のもう1つの肝:運用監視
障害発生!そのときどこを見る?
  システムに起こったことを監視する