Pages

2014年11月30日日曜日

最近忘れつつあったクラウド障害の件 ~公共圏における品質の合意~

 もう1件熊谷からの投稿が続きます。
 11/27(木)10:00頃に弊社のお客様から「AWSのコンソールからログインできないんですけど」という問い合わせが何件か続きました。これはAWSの管理コンソールであるManagement Consoleにおいて、北米、欧州を含めてかなり広域に障害が発生していたことによるものでした。
 ユーザ部門への影響が少なかったからか、日本のニュースで大きく取り上げられていませんでしたが、英語圏のサイトではもう一つ同時に障害が発生していたコンテンツデリバリネットワークのCloudFront2時間ほど停止していたことで、オーストラリアのメーリングリストサービスが停止していたことなど報じています。

AWS CloudFront wobbles at worst possible time  Two-hour outage had global impact

 ここ1年ほどパブリッククラウドの広域障害のニュースも少なくなってきましたので、お客様に「最近クラウドは安定しているみたいですよ」と話すことが増えましたが、AWS2年前にEC2仮想マシンなど主力のサービスで広域障害が発生していました。またMicrosoft Azureでもつい先週以下の広域障害に直面したばかりです。

Amazonクラウドを襲った嵐が、EC2EBSELBRDSの障害に発展した理由(前編)

Microsoft Azure10時間を超える障害。原因はストレージの性能改善のバグと運用のミスとの報告

 今日はタイトル通り、最近やや忘れつつあったクラウド障害についての話です。


■リソース共有の規模と影響範囲
 データセンターとパブリッククラウドはインフラの持ち方が違います。データセンターは共有の立地条件の上で利用者固有のコンピューティング・リソースを持つのに対して、パブリッククラウドは共有の仮想基盤の上でコンピューティング・リソースを持ち合う形を取ります。
 それ故にパブリックラウドは、乗合している他の利用者のリソースの使い方によっては自分が利用中のサービスに影響を受けることもあります。例えば自分が利用している仮想マシンと同じ基盤上で他のユーザがCPU・メモリを大量に消費するような処理を長時間行っているため、通常よりも大幅にパフォーマンスが劣化する、というような現象です。

 またデータセンターもパブリッククラウドも運用を自動化・省力化する仕組みが構築されていますが、パブリッククラウドの方がサービスが標準化され、かつより多くのリソースの管理に対応するため、グローバルなスケールで運用が自動化されています。逆に言えばオペレーションミスによる障害が発生した場合、パブリッククラウドの方が影響が広がる可能性があります。
 前述のAWSAzureの広域障害も運用のミスに起因した障害ですが、データセンターがグローバルなサービスを提供していてもここまで障害が連鎖することはありません。パブリッククラウドのサービスの先進性は運用技術の高さの上にありますが、共用故の影響範囲の広さも背景にあります。


ERPでもテスト機でも平等な対応
 何が違う?「クラウド」と「データセンター」という投稿の中で、契約形態の違いについて説明しました。データセンターは利用者との間で個別にサービス契約しますが、クラウドは約款の合意に基づくサービス利用という形態です。
 もう少し踏み込んで言うと、クラウドは利用者のビジネスインパクトによらず同じ条件で利用することを前提にして約款が用意されています。クラウド上では開発目的の検証用サイトもあれば、Eコマース系のビジネスを生み出す仕組みもあり、最近ではERPのような経営上重要なシステムも稼働させているケースもあります。
 パブリッククラウドはこれらがすべて同居している「公共」のサービスであり、その上で仮にサービス停止があっても同じ基準で復旧作業が行われます。SAPが乗っているシステムが優先的に対応されるわけでもなく、補償が手厚くなるわけでもありません。その意味では、ユーザが誰であれシステムが何であれ、平等な条件で使っているという前提があります。


■「ビジネスインパクト回収はユーザ責任」という合意
 国内のクラウド障害としては20126月のファーストサーバにおける大規模なトラブルが記憶に残る方も多いと思います。この障害は利用者におけるビジネスインパクトの大きさから、IT系のニュース以外にも新聞の一般紙や全国ネットのTVニュースでも特集されました。特にデータ消失まで引き起こしたのにも関わらず、「バックアップはユーザ責任で」と記載された約款を盾に免責としている点において、クラウドへ本当にシステムを移行して良いのか、ビジネスとして活用して良いのか?と、クラウドに突き進んでいた市場の動きに大きな疑問が投げかけられました。
 あれから2年、その後クラウドの成長は止まったかと言うと、そのようなことはなくむしろ順調に伸びつづけています。別の言い方をすると、ファーストサーバと同等のサービスレベルとユーザ責任が伴うクラウドは市場で拒否されることなく、この事故対応を経験として「そのようにして使うものだ」と合意形成がされているとも言えます。

 既にこのような状態が安定している例もあります。ネットワーク回線のサービスにおいては、通信データを占有して帯域を保証する高価な専用線と、データを共有して帯域を努力目標(ベストエフォート)とする安価なインターネット回線(共有回線)という選択肢があります。速度低下をしてもコストが見合えばインターネット回線を利用するというビジネスシーンは増えています。通信キャリアも運用経験を積みながら通信基盤を増強し続けた結果、最近はベストエフォートでも回線品質は安定し、コストもさらに安価になっていますので、パブリックなサービスであるインターネット回線を利用するケースはまだまだ増えるかもしれません。

 そのインターネット回線の障害が現在でも少なからず起きているのと同様に、パブリッククラウドも今後も何度か大きな障害は発生するかもしれません。それでも「公共・共有の」クラウドというサービスモデルが受け入れられるならば、事業者側の品質向上と同じぐらい利用者側のサービスレベルの認知が進むことが鍵を握るのかもしれません。

0 コメント:

コメントを投稿