アプリケーションパフォーマンス管理 AppDynamicsの導入事例
株式会社NTTドコモ様障害特定にアプリケーション性能管理ツールを活用。調査時間を大幅削減し、障害予兆に取り組む
通信とスマートライフの2事業をビジネスの核とする株式会社NTTドコモは、サービス価値向上のためにはサービス品質をユーザー視点で高める必要があると判断。システムログの監視だけでは対処できない障害を解決するためのツールとして、アプリケーションパフォーマンス管理「AppDynamics」を導入しました。
この事例に関するソリューション・商品
背景と課題
“迷宮入り”に終わる障害。膨大な時間と手間を調査にかける
内山 貴允 氏
携帯電話などの移動体通信をビジネスの原点とする株式会社NTTドコモは、各種コンテンツや生活関連サービスをdマーケット経由で提供するスマートライフ事業にも力を入れています。
そのスマートライフ事業を支えているのが、NTTドコモのクラウドで動作しているさまざまな業務アプリケーション群です。
「スマートライフ事業で最も重要なのは、ユーザーに分かりやすい価値を素早く直接的に届けること。そのようなビジネスを考えるのが、当社の各ビジネス部門の役割です。サービスデザイン部は、ビジネス部門が企画したビジネスモデルをITサービスとして具現化するための要件定義、システム開発、運用までを一貫して担当しています」(内山氏)
ただ、NTTドコモのスマートライフ事業がユーザーにとって真に価値のあるものとなるには、それぞれのサービスが常に正常に動作していなければなりません。サービス停止やスローダウンなどの障害があれば、ユーザーの満足度低下は確実です。
そのため、NTTドコモはサーバーなどが出力するシステムログをシステム監視ツールで自動監視する運用をしており、CPU使用率増大などの事象が発生したら、システム管理者に即座に通知する体制を整えていました。
「問題は、“迷宮入り”になってしまうケースが少なからずあることでした。何が起こったかはシステム監視ツールで検出できるのですが、その原因が何なのかを突き止めることができなかったのです。主に行っていたのは、システムログを画面に表示して目視で調べたり、疑われる状況を故意に作り出して再現試験を実施したり、といった調査方法です。しかし、巨大なシステムのログの目視検査には膨大な時間と手間がかかりますし、すべての事象がシステムログに出力されているとは限りません。その結果、ビジネス部門に提出する障害分析報告に『原因不明』と書かざるを得ないこともしばしばでした」(秦氏)
選定と導入
PoV*で4点を評価。導入の工数が少ないことも決め手に
秦 将之 氏
このような状況に変化が訪れたのは、2016年初めのことでした。以前からNTTドコモと取引があった日立ソリューションズがアプリケーションパフォーマンス管理(APM)ツールの「AppDynamics」をサービスデザイン部に紹介。障害原因の調査と可視化に利用できるのではないかと考えた同部が、PoVをしてみることになったのです。
PoVが実施されたのは、2016年4月~5月。サービスデザイン部は採用判定のためのいくつかの条件を設定したうえで、毎日の業務で実地に試すことにしました。
「最も重視したのは『障害の発生場所や原因となっている場所を見やすいユーザーインターフェースで表示できるかどうか』を確かめることでした。また、導入に当たって既存のコードを改修する必要があるかどうかを確認し、常時のモニタリングによってシステムにどの程度の負荷がかかるかを測定することもPoVの狙いでした」(秦氏)
ほぼ2カ月に及んだPoVの成果として、サービスデザイン部は以下4点を評価し、導入を決めました。
・メソッド、クラス、SQL文の単位で問題個所を発見
・クリックによるドリルダウンで原因個所に容易に到達可能
・導入に際してコード改修は不要
・モニタリングのCPU使用率は1%程度
「AppDynamics」のユニークな特長は、トランザクションフローを自動認識し、定常時のパフォーマンスを自己学習できることです。そのため、コード改修が不要であることと併せて、導入と移行のために多くの工数は必要ありませんでした。
「唯一、当社で手を入れたのは『定常時のパフォーマンスからどれだけ逸脱したら障害と判定するか』というルールの部分。“警告ラッシュ”を防ぐには、しばらく使用した後のノウハウが必要でした。このほか、『AppDynamics』が取得した計測情報を分かりやすく整理して表示するダッシュボードも部内で作っています」(秦氏)
サービスデザイン部での「AppDynamics」の使い方は、既存のシステム監視ツールと併用するダブルモニタリング方式です。
「既存のシステム運用管理ツールから第一報が上がったら、ユーザーに影響が出そうかどうかをサービスデザイン部が判断。重大な障害になると思われる場合は、『AppDynamics』の画面で詳しく調べるようにしています」(秦氏)
「障害の種類や程度によっては、既存のシステム監視ツールに引っかからないものを『AppDynamics』が独自に検出することもあります。例えば、Web経由で呼び出している外部サービスの処理速度低下などは、『AppDynamics』でなければうまく捉えることができません」(角田氏)
* Proof of Value:価値検証
成果と今後
調査所要時間を数分に短縮。障害の考え方もユーザー視点に
角田 理恵 氏
石原 知憲 氏
その後、2016年12月には「AppDynamics」の持つ高度な機能をフルに活用する本格利用もスタート。当初は予定されていなかった使い方にも挑戦することによって、さまざまな効果が表れてきました。
まず、定量的な効果として、障害とその原因の調査に要する期間の大幅短縮が実現できています。
「従来は1時間以上かかっていた調査作業が、今では数回のクリックによる数分で完了。障害対応に費やされていた時間を、新たなシステム開発に振り向けられるようになりました。また、CPU使用率などのリソース消費の傾向を監視する作業も自動化できましたので、毎朝90分程度かけていた手作業での確認作業が削減できました」(秦氏)
「配属1年目の私でも、先輩に少し教えてもらうだけですぐに使い始めることができました。先日も障害ではありませんが、業務アプリケーション内で時間がかかっているコード部分を発見し、今、対処策を検討しているところです」(石原氏)
一方、定性的な効果としては、これまで特定することができなかった障害発生場所や原因個所を特定できるようになったことが挙げられます。
「障害の調査をユーザー視点で進められるようになった結果、チームの意識も、狭義のシステム障害だけでなく、ユーザーにとって使い勝手が悪くなる事象はすべて障害である、と変化。今は障害予兆検知もしています。既存の業務アプリケーションに対するアセスメントにも活用して、処理性能のさらなる向上に役立てています」(秦氏)
投資に見合う十分な効果を確認したNTTドコモのサービスデザイン部は、この「AppDynamics」を社内の他の部門・業務アプリケーションにも広めていくための取り組みもスタートさせました。
「スマートライフ領域での新サービス提供に力を入れている当社にとって重要になるのは、ユーザー視点のサービス監視を行ってユーザー満足度を高めること。そのためには、各部・各サービスがばらばらにアプリケーション性能管理を実施するのではなく、全社横断的に取り組むべきだと考えています。そこで、まずはサービスデザイン部で先行して『APMチーム』という普及促進組織を立ち上げ、『AppDynamics』を社内に広めていくための周知活動を始めました。すでに一部のサービス運営チームはPoVにも取りかかり、良い結果が出ています。日本での先進事例として、今後も日立ソリューションズをパートナーとして進めていきたいと考えています」(内山氏)
「迅速な技術サポートにとても感謝しています。今後、社内で横展開していく際にもサポートを期待しています」(秦氏)
「モノからコトへ」のシフトが進む今、サービスの価値をユーザー視点で高めることはどの企業にとっても重要な経営課題となっています。日立ソリューションズは今後も経営課題を解決するソリューションを提供していきます。
株式会社NTTドコモ
ビジネスの原点となった通信事業では、携帯電話サービス、光ブロードバンドサービス、衛星電話サービスなどを国内全域に展開中。国際サービスや各サービスの端末機器の販売にも乗り出している。さらに、近年はスマートライフ事業にも注力。dマーケット経由で動画配信・音楽配信・電子書籍サービスなどを提供するほか、金融・決済サービス、ショッピングサービス、生活関連サービスなども手がけている。
本社所在地 | 東京都千代田区永田町2丁目11番1号山王パークタワー | |
---|---|---|
設立 | 1991年(エヌ・ティ・ティ・移動通信企画株式会社として) 2013年(現商号) |
|
従業員数 | 7,767人(単体)27,464人(グループ) 2018年3月31日現在 |
|
URL | https://www.nttdocomo.co.jp/ |
この事例に関するソリューション・商品
導入事例ダウンロード
本事例の内容は2018年9月26日公開当時のものです。
最終更新日:2018年9月26日