[ThinkIT] 第3回：Hinemosを利用した運用監視で何が把握できる？ (2/3)

TOP＞サーバ構築・運用＞障害発生！そのときどこを見る？

運用管理ツール「Hinemos」完全利用ガイド

第３回：Hinemosを利用した運用監視で何が把握できる？
著者：NTTデータ宮本洋輔 2006/12/25

前のページ 1 2 3 次のページ

障害発生！そのときどこを見る？

画面に緑の「通知」という状態が表示されていれば、監視対象が正常な状態であるということなので、それで確認が終わります。しかしひとたび障害が発生すると、障害の内容を把握し対応する必要があります。

ここでは、表2の監視を行っている環境下で障害が発生した場合の対応を説明します。

監視項目	グループ	監視間隔	説明
ping監視	システム全体	1分	Hinemosとの通信が可能かを監視
プロセス監視	Webサーバ	5分	httpプロセスの監視
プロセス監視	APサーバ	5分	tomcatプロセスの監視
SNMP監視	サーバ	1分	サービス側ネットワークインターフェースの監視
syslog-ng監視	システム全体	-	システム障害のメッセージを検出

表2：今回の例で行う監視

例えば、Webサイトの表示に時間がかかるという障害が発生したとします。障害発生時にメール送信を行うように設定している場合、図4のようなメールが管理者の元に届きます。

図4：障害通知メールの例
（画像をクリックすると別ウィンドウに拡大図を表示します）

管理者が状態の把握と対応のためにHinemosクライアントの画面を表示すると、統合監視画面の業務システムの状態は赤の「危険」となっています。そこから赤の「危険」となっているグループをドリルダウンしていくと、「Webサーバ01」に問題があることがわかります（図5）。

図5：統合画面
（画像をクリックすると別ウィンドウに拡大図を表示します）

そこで、ステータス画面で「Webサーバ01」を選択すると図6のステータスが表示されます。

図6：Webサーバ01のステータス
（画像をクリックすると別ウィンドウに拡大図を表示します）

ここから以下のことを把握することができます。

ping監視ができてきるので、Webサーバ01自体は起動している
HTTPのプロセスは起動している
Webサーバ01の業務側のネットワークがダウンしている

表3：把握できること

よって障害への対応は「Webサーバ01」のネットワークインターフェースを重点的に確認すればよいことになります。このように障害の原因を的確に認識することができます。

構成変更 - 新しい機器はうまく動いているか？

例えば、「Webサーバ01」がハードウェア故障により利用不能になり、新しいサーバ「Webサーバ03」で置き換える必要が生じたとします。この場合はリポジトリ管理機能で、「Webサーバ03」をノードとして登録し、Webグループから「Webサーバ01」を削除し、「Webサーバ03」を追加すれば監視設定側は一切変更することなく監視を継続することができます（図7）。

図7：ハードウェアの変更と監視

つまり、構成変更を行った直後からping監視やプロセス監視、SNMP監視が有効になります。監視の結果、状態が緑の「通知」と表示されれば、システムが正常に動作しているということです。

前のページ 1 2 3 次のページ

著者プロフィール
株式会社NTTデータ宮本洋輔
基盤システム事業本部オープンソース開発センタ
2003年、株式会社NTTデータに入社。入社以来セキュリティや運用管理などのシステム管理OSSに関する研究開発に従事。現在はHinemosの開発とコミュニティ作りに活動している。

INDEX
第3回：Hinemosを利用した運用監視で何が把握できる？
	運用管理のもう1つの肝：運用監視
	障害発生！そのときどこを見る？
	システムに起こったことを監視する