Googleは2017年5月17日から、マウンテンビューにある本社の目の前の屋外劇場で、開発者会議「Google I/O」を開催しました。発表の中では、世界最大のモバイルOSの最新版「Android O」や、新興国向けの軽量版「Android Go」が登場したほか、深層学習やVRの話題などもありました。

 予想外の発表があったわけではありませんが、Googleの手堅い「モバイルユーザー増加」戦略と、コンピューティングの未来を追究する姿勢を鮮明に印象づけるには十分だった、と思います。

 Facebook、Googleが開発者会議を開くと、後は6月のAppleの発表に注目が集まりますが、ここまでで2017年のキーワードは決まりつつあります。それは「声や対話型のインターフェース」と「カメラによるARコンピューティング」です。いずれも真新しいキーワードではありませんが、いよいよ生活の中で活用するシーンが増えてくる、そんな予感が大きくなってきました。

声による操作はすでに実用レベル

 声やカメラをインターフェースに使うという方法は、今でも使われています。たとえば音声認識による文字入力は、慣れてくると非常に素早く快適な方法です。メッセージのやりとりを音声だけでこなすことはすでに実用レベルですし、地図などの検索にも有用です。

Google I/O 2017まとめ
GoogleアシスタントのiPhone版も登場。間もなく日本語対応をするという話も

 現在のスマートフォンの音声アシスタントでは、地名さえ聞き取ってくれれば、そのままナビゲーションを起動させることもできます。「○○までナビして」「○○までの道順」など、いくつかの言い方をしても、きちんとナビを表示してくれるでしょう。

 2107年に期待したいのは、基本的なアプリ以外の声での操作という部分です。

 アプリを操作するとき、複雑な操作になればなるほど、アプリ側で手順ごとに画面を用意して、ステップバイステップで操作する方法を用意してくれています。声だけで操作する場合、画面を見ないことも想定して、声でもステップバイステップで進めてくれる仕組みがほしいと思っています。

 前の例で言えば、いきなり「○○までの道順」と言ってナビを起動するだけでなく、「○○を検索」「○○までの行き方」「交通機関で」と分けて命令できた方が親切ですよね。

 対話型インターフェースについては、Facebook MessengerやLINEなどのチャット型コミュニケーションアプリが得意ですが、それ以外のアプリも、声による対話型での操作を備えるようになると、音声アシスタントで活用できるアプリが格段に増えることになりそうです。

カメラが次のインターフェースに

 Facebookの4月の開発者会議「F8」では、「カメラを拡張現実(AR)第1のインターフェイスにする」との宣言がありました。本連載でもご紹介したとおり、情報表示、デジタルオブシェクト、装飾という3つのAR活用のパターンを示しました。

 Google I/Oでは「Google Lens」が披露され、やはりカメラを活用したARの仕組みを披露しました。カメラでかざすとリアルタイムに画像認識をして、そのものの名前やお店の情報などをスマホの画面に表示してくれます。

Google I/O 2017まとめ
Google Lens

 たとえば街中で花を見かけたときにかざすと、その名前の候補を表示してくれます。従来は自分で名前を思いついて検索しないと、詳しい情報を見つけることができなかったわけで、これまではたどり着けなかった場所へ導いてくれます。

 FacebookのカメラによるARは、やはりコミュニケーションを楽しくする目的を色濃く感じました。人の顔にお面を付けたり、現実世界にスマホを通じてしか見えない何かを置いておく、あるいはゲームなどが例示され、楽しい未来を想起させてくれました。

 しかしGoogle Lensは、より実用的な例を示しました。たとえばWi-Fiのパスワードが書かれた紙を移すと、そのスマホで自動的にネットワーク接続を済ませてくれたり、何軒か並んでいるレストランをかざして、それぞれの評価を見たり。毎日、なんらかの形で「あるある」という状況をカメラで解決する様子は、「活用されるAR」のパターンそのものと言えます。

今度は人間が進化する番では?

 スマートフォンはタッチ操作によって、より手軽で高度なアプリやゲームを、パソコンやテレビよりも小さな画面の中で実現し、すでに我々の生活の中での「メインスクリーン」となっています。

 そのスマートフォンの操作性を、声やカメラは、さらに広げてくれることになります。特に文字入力は、声やカメラが利用できれば、ストレスはかなり減少します。Wi-Fiのパスワードの打ち間違い、注意深くやっても1度は引っかかりますよね。これがなくなると考えると、なんて素晴らしいんだろうと思うわけです。

 スマートフォンのインターフェースは進化していきますが、ここで、一つ見落としがちなのが、使う人間の進化です。

 もちろんインターフェースは、初めての人でも使いやすくという設計がなされるべきで、新しいものであればあるほど、そう考えて作られています。ただ、機械の使い勝手以前の部分、つまり身体的な体験の部分において、なんらかの訓練が必要になるのではないかなと思います。

 たとえば声で文字入力をするとき、指先で入力するよりも、文字入力自体は早いかも知れませんが、打ち込みたいことを考えて、指を動かす代わりに喋らなければなりません。 筆者が古いタイプだからかもしれませんが「書き言葉」と「話し言葉」があるように、書き言葉を喋るというのはなかなか難しいものです。話し言葉で喋ってもチャンと認識してくれますが、考えて黙々と指を動かす方が楽に感じるなら、書こうとした言葉を口に出す練習が必要になります。

 またカメラでの操作についても、カメラの中の映像が認識できる大きさになるまで、近づかなければなりません。視力は人によって異なりますし、昨今のカメラ画素数を持ってすれば、人が見分けられる以上の解像力はありそうですが。

 そして、これまでのタッチ操作に、声やカメラというインターフェースを織り交ぜて、最短の時間で操作する方法を、各自が心得る、という最適化の作業も必要になります。

 人の好みもありますし、声が出せない、というシチュエーションもあります。そのため、いくつかの方法を候補として用意し、そのときに取り得る最も早い方法を選ぶという判断をしなければなりません。

 インターフェースが増えるというのは、ただ便利になるだけでなく、そうした選択肢や葛藤が増えることでもあります。ただ、個人的には、新しいインターフェイスに触れる事は大好きですし、新しインターフェイスの善し悪しを吟味するのは楽しいし、より効率的な方法が身につく事は、ひとつの進化だととらえています。