ITサービスマネージャ試験 H22-午後Ⅱ 問3 論文

SM

くまごろうです。この投稿ではITサービスマネージャ試験 平成22年午後Ⅱ問3「情インシデント発生時に想定される問題への対策について」の論文を公開します。

くまごろう
くまごろう

この記事では実際の論文を公開します。論文を考えていく上での参考になればうれしいです。

ITサービスマネージャ試験は最後の論文試験であり、気合が入っていた試験になります。

問題文はこちらを参照ください。

論文

1.ITサービスの概要とインシデント発生時に想定される問題
1-1.ITサービスの概要
  A社はクラウドサービスを提供するITベンダである。今回論述するのはA社が全国400施設に提供するホテル向けの宿泊予約システムのサービスについてである。このサービスでは、東京にあるA社管轄のDCからサービスを提供しており、各ホテルはインターネットを経由してサービスを利用している。
  このサービスの対象としているホテルのフロントは24時間365日稼働しており、このサービスも同様に稼働している。サービスが停止すると予約管理ができなくなるだけでなく、チェックインやチェックアウトができなくなるなど、ホテルのオペレーションが停止してしまう。このため稼働時間は年4回の定期点検を除く24H365日、稼働率99.9%、RTOは2時間以内とすることをサービス利用者と合意していた。
  私はITサービスマネージャーとして、15名のメンバを率いて、このサービスの運用及び保守チームを担当している。
1-2.インシデント発生時に想定される問題
  前述したように、サービス停止はサービス利用ホテルのオペレーションに多大な影響を与える。また利用施設数も多く、インシデント発生時にはサービスデスクに問い合わせが殺到し、サービスデスクがパンクする恐れが強いと想定された。また高いSLAを掲げており、これを実現するためにDC内では、ネットワーク機器、LBやAPやDBなどの機器の二重化を行っていた。逆説的にこれまでサービス停止を伴うインシデントが発生しておらず、回復手順に不慣れであることが想定された。
  以上のような状況を踏まえて、私は上述した2点の課題に対応することにした。
  
2.想定される問題への対応とその留意点
  上記の課題に対して、私はそれぞれ以下の対策を行うこととした。
①サービスデスクの問い合わせ殺到について
  インシデント発生時に問い合わせが殺到し、サービスデスクがパンクすることで、サービス利用者に対して情報が提供できなくなる件について、情報提供用のHPを作成し、システム利用者に提供することにした。理由としては、サービスデスクの人員を増員し、対応余力を増すことも考えたが、実行するとサービス提供価格が上がること、大規模障害時には対応が不可能であることが予見されたため、費用対効果が悪いと判断した。
  HPの作成においては、ネットワーク障害に対応するため、自社のDCには設置せず、安価なクラウドサービスを利用することにした。
  なお、情報提供用のHPについては、サービス契約時に登録いただいたメールアドレスに対して、案内を送付し、共有を図った。
②回復手順が不慣れなことについて
  これまで回復手順の確認は、年1回、机上での手順確認に留まっていた。しかしながら運用・保守チームのメンバーには、各機器の管理コンソールに触れたことがないメンバーがいるなど、実際にインシデントが発生した場合に、回復手順を実施するときに、その実効性に問題があると考えた。また手順の確認だけでは、手順の意図なども十分に把握できないと考えた。
  そこで私は、実際の機器を用いて回復手順を実施することを考えた。具体的には、大口顧客などに対しては専用環境をDC内に用意しており、環境構築後は冗長化のテストなどを行ってからサービスインをしている。運用保守チームのメンバーをこの冗長化テストに参加させ、実際にテストを実施させることで、回復手順の習熟を図ることとした。この方式としたのは、第一に訓練用の環境を別途用意する必要がなく、費用対効果が高いことである。第二に実環境を利用でき、訓練の質を高めることができる点である。第三にに実環境を利用して手順を行う場合、定期点検時などサービス停止時間を利用することになるが、手順の誤りによって不要なインシデントなどを引き起こす必要がないことである。以上のようなメリットから、この方式を採用することにした。
  上述する2つのインシデント対策を実施することにした。
  
3.対策の改善について
  ある金曜日の夕方、システムが利用できないインシデントが発生した。原因はあるAPサーバのネットワークボードに異常が発生し、これを検知したL2スイッチが通信を遮断したために発生した。インシデントの回復自体は、回復手順通りにL2スイッチの状態から、該当のサーバを特定、切り離すことで現象は回復することができた。サービス自体の回復はスムーズに行うことができた一方で、HPは活用されず、サービスデスクへの問い合わせが殺到し、サービス利用者に情報提供を行うことができなかった。一部利用者からは、掲示板などでもよいので、障害時に情報提供する場所を整備してほしいと要望をいただいた。大口顧客からは、緊急時の連絡網を確立してほしいというクレームが寄せられた。
  HPがあることをサービス利用者に案内したところ、ほとんどの利用者はその存在を知らなかった。利用者にヒアリングをしていくと、HPが活用されなかった原因は周知方法に問題があったことがわかった。利用時に登録いただいたメールアドレスへの案内送付は、時間の経過とともに大半の顧客で案内自体が忘れ去られていた。そこで私は、既存のサービスに手を加えることにした。サービスが利用できなくなった場合、HPへリダイレクトするようにサービスに修正を加えることにした。こすうることで、障害発生時には常にHPを参照するようになる。
  また大口顧客からの緊急時の連絡網を確立してほしいという要望については、大口顧客の本部窓口の名簿を作り、緊急時にはサービスデスクから状況を報告することにした。報告を受ける本部窓口は、自チェーンの手動運用手順を加味したうえで、参加のホテルに連絡していただくことを要請し、了承をいただいた。
  以上の対策を追加で取ることにした。以降、大規模なインシデント発生時にはサービスデスクは機能しなくなるが、サービス利用者には情報提供が正しくできるようになり、情報共有という面ではクレームをいただくことはなくなった。

解説

いかがでしょうか。

この問の問題文では想定されている問題を「①回復手順に不慣れでITサービスの回復が遅れること、②サービスデスクに問い合わせが殺到し、利用者とのコミュニケーションが十分に取れないこと」の2つがあげられていました。この論文では、この2つをそのまま利用し記述しています。

問題文の例示をそのまま利用することは問題ないです。利用しつつもっともらしい論文が作れるかが腕の見せ所です。

論文の注意点は以下の通りです。

論文のテーマ選び

一番最初に重要なのは論文のテーマ選びです。SLAが設定されているサービスで、インシデントが発生すると顧客満足度の低下や、サービスデスクがパンクするほどの問い合わせが殺到する、それは重要なサービスでなくてはいけません。

何らかのITサービスをテーマにして重大な問題を引き起こすには、サービスが停止してしまうと業務にならないものが良いです。良い例としては予約システムやPOSシステムなどの停止すると機会損失が発生するサービスです。社内メールとかでも良いかもしれませんね。悪い例としては自社内に提供している緊急性のないシステム、例えば給与システムとかです。

このような重大なサービスをテーマに選びましょう。

設問ア

重要なサービスをテーマに据えたなら、次は設問イにつながるように設問アの後半に対応する必要のある問題点を書かねばなりません。ここでは以下の2つです。

  1. サービスデスクになぜ問い合わせが殺到すると考えているのか
  2. なぜ回復手順に不慣れだと考えているのか

1については、ユーザ数が多いのでインシデント発生時には問い合わせが殺到すること、2についてはそもそも高い信頼性があり、インシデントが発生しない。逆説的に回復をほとんど行うことがないため、結果として回復手順に不慣れであることを記述しています。

設問イ

設問イでは、設問アの問題点の対応策と、対応策を考えるうえで留意したことを具体的に記述します。

留意点は問題文に記載されているように「①SLAの順守への影響が最小となるようにすること」「②費用対効果が最大となるようにすること」「③対策の前提となる技術やサービスの入手時期を明らかにすること」などに留意することが記述されているため、これに似たことを記述します。

「①サービスデスクの問い合わせ殺到について」では以下のことを記載しました。

  1. 費用対効果
  2. ネットワーク障害への対応

「②費用対効果が最大となるようにすること」 をメインとしつつも、ネットワーク障害の視点からの留意点も記述している形となります。

また「①サービスデスクの問い合わせ殺到について」の最後には、設問ウへつなげるための「なお、情報提供用のHPについては、サービス契約時に登録いただいたメールアドレスに対して、案内を送付し、共有を図った。」という記述を入れています。

「②回復手順が不慣れなことについて」では以下のことを記載しました。

  1. 費用対効果
  2. 2次被害防止

こちらも「②費用対効果が最大となるようにすること」 をメインとしつつも、訓練用の環境を別途用意する必要のないことだけでなく、稼働前の本番環境を利用することで訓練効果が高まること。本番環境を利用した場合のリスクを防げる点を記述しています。

このように問題文の例示はあくまでも目安なので、問題文の例示をそのまま使ってもいいですし、似たようなものを使っても問題ないです。

設問ウ

設問ウでは、設問イの対策実施後に出た不備の解決策を立案し、改善活動を記述します。

この論文では設問イの 「なお、情報提供用のHPについては、サービス契約時に登録いただいたメールアドレスに対して、案内を送付し、共有を図った。」が原因で対応策がHPを周知できなかったこと、実際にインシデントが発生したときには対応策が有効に機能しなかったことを記述し、改善策を記述しています。

改善策については以下の2つです。

  1. インシデント発生時にはソーリーページに誘導して周知する
  2. 大口顧客には個別に情報共有をする

「1.インシデント発生時にはソーリーページに誘導して周知する」は、設問イで記述した対応策を有効に機能させるための改善になります。

「2.大口顧客には個別で情報共有をする」は、設問イの対応策以外の改善としてとて記述しました。若干、設問から外れているかなとも思います。ただ運用した結果として出てきた要望を取り込んで改善することは現実的にもあり得ますので、大丈夫かなと思い記述しています。


今回の論文はいかがだったでしょうか。参考になったならば、うれしいです。

今後もくまごろうの論文演習で作成した論文が尽きるまで投稿していきたいと考えていますので、よろしくお願いいたします。

また次回お会いしましょう。それでは!!

コメント

タイトルとURLをコピーしました