『ヒントを得るためのデータ活用(4):データ分布の複数の山に着目する』 豊田裕貴先生

法政大学経営大学院イノベーションマネジメント研究科・教授

「ヒントを得るためのデータ活用」の最終回は、データの分布に着目します。データの分布というと基本的な分析に思えるかもしれませんが、ヒントを見つけるためには重要な情報源であり、活用が望まれます。また、最終回ということで、「仮説からのデータ」という考え方と、「データからの仮説」という点も整理していきたいと思います。

・色は時間間隔に影響を与える!?

店内の色調は顧客(滞在者)の時間感覚に影響するということがいわれています。一般的には、暖色系(赤や黄色などの色味)の店内の方が、寒色系(青や白など)の店内よりも、時間の流れが遅く感じます。時間の流れが遅く感じるということは、暖色系の店内の方が、短時間しかいなくても長居したという感覚になるということです。これを仮説として表してみると次のようになります。

仮説:暖色系の色調は(寒色系に比べ)、短時間でも長く居たように感じさせる。

これを活用して顧客の回転率を上げたり、満足度を上げたりといった工夫が試みられます。さて、この仮説をデータで検証するとどうなるでしょうか。実店舗のデータでは、色ありだけを変えて比較するというのは難しいでしょうから、実験空間を準備し、データを取得します。あるグループには暖色系の店舗に、他のグループには寒色系の店舗で過ごしてもらい、30分たったと感じたら退店してもらうという実験をしたとしましょう。

時間感覚は人によりばらつきますので、いずれの部屋でも30分より短く退店する人も居るでしょうし、遅めに退店する人も居るという具合になります。この時間のばらつきを確認するには、ヒストグラム(度数分布)という分布を視覚化する手法を活用できます。図1は、両部屋での滞在時間のばらつきを示したヒストグラムです。暖色系のデータを赤、寒色系のデータを青で表し、重ねて表示しています。

図1:暖色系(赤)と寒色系(青)での時間感覚の比較

両部屋共にデータのばらつきが見られますが、まず目につくのは、それぞれのピークが異なっているという点でしょう。暖色系の部屋では20分過ぎに多くの方が退店しているのに対して、逆に寒色系の部屋では30分過ぎに多くの方が退店していることがわかります。つまり、「暖色系の色調は(寒色系に比べ)、時間がたつのを遅く感じさせる」という仮説が、データからも確認できたということになります。

このように仮説を設定し、それを検証することでビジネスに役立つ知見を得るということは重要かつ有効ですが、「ビジネスデータのほとんどは実験データではない」ことを踏まえると、この事例からさらに考えるべき視点が見えてきます。

・リアルなデータは、実験データではない!

今回は実験データでしたから、データを分割する基準(どちらの部屋からのデータ化を識別できる情報)を事前に持っていることになります。ただし、多くの実際のデータでは、ある事象を観測できても、それがどんな構成要素から成り立っているかが不明です。たとえば、図1のデータを2部屋のデータに分けられないとしたら、得られるデータやその結果は、図2のようになるはずです。

図2:暖色系(赤)と寒色系(青)の違いを識別できない場合

我々は図1を知っているので、図2が二つの異なるデータの組み合わせからなっていると理解できますが、実際には、いきなり図2の状態を観測することになります。したがって、図2からヒントを得るデータの見方を理解しておく必要があります。ポイントは、分布(山)のピークが複数あるという点です。

もし一つの事象を記録したデータだとすれば、誤差(ばらつき)はあるとしても一山(ピークが一つ)の分布になるだろうと考えられます。それに対し、ピークが複数あるということは、異なる事象が混在していると考えるわけです。

この「分布のピークがいくつあり、それはどこになるか」に着目することにより、どのようにデータを分けて比較すべきかという「ヒントを得るための分析視点(データを眺める視点)」が生まれるわけです。もちろん、比較基準は不明ですから、あくまで仮説としてのアイディアとなるため、それを検証することが必要になります。つまり、図1のような分析に移るということです。

図2と図1との関係は、「データからの仮説発見」と「仮説のデータによる検証」という両輪だということがわかります。

では、この仮説を思いつくには、何が必要でしょうか。図2のデータをいくら見ていても仮説は生まれません。このデータを読み解く背景知識(顧客の滞在時間に影響するのはどんな要因があり得るか)を持っていなければ、ヒントも仮説も見えて来ません。実務家にデータ分析力が期待されているのは、データを読み解く背景知識なしにはデータは活用できないためです。データの活用はデータ分析技術だけではないという点を強く意識していただければと思っています。

以上