フェイスブックにおけるオペレーションの自動化戦略を、同社のエンジニアリング担当バイスプレジデントが語る。その根底には「優秀人材を活かす」という明確な意図が見られた。

 

 フェイスブックでのオペレーションの実行は大仕事である。世界中に膨大なネットワークを持ち、サービスの信頼性とユーザー体験の充実が絶対的に重視される。そのうえ、現行の製品・サービスの維持に甘んじてはいられないという現実がある。自社がさまざまなイノベーションの目標を追求できるよう、常に新たな柔軟性と処理能力を生み出すことが求められているのだ。将来を見据えた同社の野心的な取り組みには、コネクティビティ・ラボ(世界中のインターネット未整備地域に接続環境を行き渡らせる計画に取り組む)、人工知能、ディープラーニング、そして次世代のコンピュータ・プラットフォームとなるバーチャルリアリティなどがある。

 本記事では、フェイスブックのエンジニアリング担当バイスプレジデントであるジェイ・パリークに話を聞き、彼が重視していること、それがより広範なオペレーションの未来について示唆することを探った。以下は、インタビュー内容を編集したものである。

HBR(聞き手:ジュリア・カービー):企業にとって「オペレーションの未来」を考えることは、主に「自社のオペレーションがどう変わっていくか」を考えることです。その時によく注目されるのは、いま人間がやっている仕事の多くを自動化することです。これはフェイスブックでも同じですか。

 ジェイ・パリーク(以下略):我々はさまざまな複雑性に対処する必要があるため、多くの自動化を行っています。世界中の膨大な数のコンピュータをつなぐインフラを抱え、ユーザー数は当社の基幹アプリで14億4000万人、その他のアプリで数億人います。何千人ものエンジニアがソフトウェアを書き、それらが絶え間なく実装されていきます。機能の変更、さまざまな最適化、メッセンジャーやインスタグラム向けの新しいサービスの提供などです。製品開発を理想的な規模とペースで進めていくには、オーケストレーションと自動化に本気で取り組まざるを得ないのです。

――以前は手動でやっていた業務で、現在は自動化されているものを教えてください。

 FBAR(フェイスブック自動修復)というシステムを構築し、ハードウェアのごく基本的な修復作業をさせています。以前は、サーバーにハードドライブの不具合やハードウェアのエラーが起きるとアラームが鳴り、人がログインしたり、コンピュータのところまで行ったりして、デバッグや修理をしていました。ソフトウェアを直したり、機器を再起動したり、イメージファイルから復元したり。そうした修復やデバッグ作業はほとんど自動化され、人の手を介する必要はありません。問題がディスクドライブでも、CPUでも、ネットワークカードでも、電源異常でも、システムがエラーを検出して決められた手順でさまざまな修理をします。

 これらは非常に単純で些細な作業なので、自動化しているのです。それによって、会社が苦労して獲得し高度な仕事ができるよう訓練した技術者たちを、初歩的な作業から解放できます。修復は退屈で、成長も学びも得られず、時間ばかり取られますからね。そして、彼らにこう言うことができます。「新しいサービスの設計を一緒に考えてほしい。この機能をもっと速くする方法を考えてほしい。携帯用アプリの問題を解決する新しい自動化システムの構築に手を貸してほしい。新しいデータセンターの設計を手伝ってほしい」とね。

――御社には、次に自動化する対象を決め、人がする仕事を高度化し続けるための、秩序立ったプロセスはありますか。

 はい。我々は、マシンの数や各種不具合などいくつもの指標を測りながら、次に自動化するものを判断します。それはもう何年も続けていることです。もう1つの例は、クラスターの自動化です。クラスターとは、当社のインフラのなかで特定の機能を果たす複数のサーバーのことを指しますが、その立ち上げプロセス、つまり稼動の準備を自動化しました。これにはソフトウェアのインストールや各種連携の確認など、多くの設定が必要とされます。

 2009年に私がフェイスブックに入社した時、これらはすべて人間がやっていました。この仕事の担当はジェイ、これはボブ、これはサリー、これはフィル、とホワイトボードに書いていました。すると気づくのです。「待てよ、ボブの作業が終わらないとフィルは作業ができない」と。そこで矢印を描いて各作業の関係を明らかにする。これでは時間もかかるし、何より問題だったのは、ミスを招くということです。ボブが休みで、ジョージが代わりに作業をしたらどうなるか。後日、「何かいつもと動きが違うな」と頭を抱えることになりました。

 自動化すれば、そういった心配はなくなります。毎回必ず同じように処理されますからね。そのうえ、かつて3~4ヵ月かかっていたクラスターの立ち上げが、わずか1週間、早ければ数日でできるのです。

――作業に必要とされる人数も減ったでしょうね。

 その点については、3つ目の例としてサーバーの保守の話をしましょう。当社は膨大な数のサーバー群を抱えているため、データセンターでは必ず故障が起きます。そこで我々は、関連ソフトウェアの自動化にかなり努力し、2万5000台のサーバーに対して1人の技術者をデータセンターに配置すればいいようにしました。この比率は前例がないものです。ほとんどのIT企業は、200台に1人とか500台に1人ですからね。こうした自動化の目的は、極めて単純で時間のかかる仕事を、当社の頭脳明晰な社員たちの手から離すことでした。彼らには、2年前につくられたものに関するあれこれではなく、これから先の2年について考えてほしかったのです。