なぜ、アマゾンの星評価はあてにならないのか

ネット上でユーザーによる高い星評価は、必ずしも品質の高さを意味しない――この現象を明らかにする研究を紹介する。そこには統計的信頼性の欠如、ユーザーの認知バイアス、評価精度の低さ、等々の問題があるという。

執筆者の1人（バート）は、生まれた息子のためにチャイルドシートを買おうとアマゾンにアクセスした。まずいくつかの検索ワードを入力し、検索結果を5つ星による評価の平均点順に並べ替えた。そして選択肢を2つに絞り込む。一方は他方よりもかなり値が張るが、星評価の平均点は4.6で、他方の3.8よりも高い。

結局、バートは高額なほうを選ぶことにした。この買い物の重要性を踏まえれば、（星評価が示す）高い品質には金を払うだけの価値がある、と考えたのだ。

これは合理的な判断のように思えることだろう。なにしろオンラインでのユーザーの評価とレビューは、いまや製品品質に関する極めて重要な情報源になっている。これらは無料で至るところに存在し、アクセスしやすく、表向きは客観的に見えるため、消費者にはすこぶる歓迎される。

　一部ではこんな主張も聞かれるようになった。オンラインレビューの出現により、ブランドの力、そして伝統的なマーケティング戦術の効果は徐々に弱まっている。そして消費者は、より豊かな情報に基づいてより合理的な意思決定をしている、と。

しかし我々の最近の研究によれば、バートはチャイルドシート探しで判断を誤った可能性がある。先に結論を言おう。星評価に対する人々の信頼は、「妥当性の錯覚（illusion of validity）」の表れである。

　これは、不確実にもかかわらずその精度を過度に信頼してしまうことを指す。オンラインの評価は、製品の品質をまったく反映していない可能性があるのだ。

ユーザーによる評価には、たとえその内容が偽りではないと仮定した場合でも、多くの問題がある。それらの問題は、統計、サンプリング、そして評価精度という3つの切り口で分類できる。

　●統計上の問題

これは、レビューの点数が一部のユーザーによるものという事実に起因する。少数のサンプル（評価者）による評価の平均点は、その製品のユーザー全員がレビューを投稿した場合に得られるはずの平均点と、完全に同じではない。星評価平均点の信頼度がより高まるのは、サンプルのサイズが大きい場合、そして評価分布のばらつきが比較的小さい（つまり評価者たちの判断が似通っている）場合である。

だが残念ながら、オンラインレビューのサンプルサイズは往々にして、統計的信頼性を満たすほど大きくはない。また、ランダムに生じるノイズなどを含む複数の理由から、ばらつきの度合いも大きくなりがちだ。ユーザーは間違った製品を評価したり、配送への不満（製品そのものにはほぼ無関係）が理由で低い評価をしたりすることもある。

　●サンプリングの問題

これは、レビューを投稿する限られた数のユーザーが、製品購入者の中から無作為に抽出されているわけではないことに起因する。極端な意見を持つ消費者ほど、レビューを投稿する傾向が強い。「自慢と愚痴」バイアスといわれる現象である。

　結果として、評価分布はしばしばＪ字型になる（英語論文）。大半が5つ星、一部が1つ星となり、その中間の評価がほとんどないという傾向だ。また、肯定的な評価が並ぶと、後により多く肯定的な評価を誘発することも示されている（英語論文）。

　●評価精度の問題

製品性能を正確に評価するには、科学的なアプローチが必須である。複数の代替品を同一条件で比較検証すること、そして精密かつ往々にして高価な計器を用いて、客観的に性能を測定することも必要だ。しかしレビューを投稿するユーザーは、このような方法で製品性能を評価するに足る知識、器具、そして時間を持ち合わせていない。

チャイルドシートの例を考えてみよう。一般的なユーザーにとって、性能を多面的に（安全性と信頼性について）評価することは容易ではない。また、さまざまなチャイルドシートを使用して比較するわけではなく、ほとんどのユーザーの体験はただ1つの製品に限られている。さらに、周知のことだが、消費者の品質評価は客観的な性能以外の要因に大きく影響される。たとえばブランドイメージ、価格、外見などである。