法政大学経営大学院イノベーションマネジメント研究科・教授
前回は、データから「当たり前な部分」と「当たり前ではない部分」とにわけて、当たり前では内部分からヒントを得るというデータの見方について解説しました。今回はその続きとして「外れ値」の特定の仕方と活用の仕方を解説します。普段用いている時系列データに簡単な分析をする(平均値と標準偏差を組み合わせる)ことで、外れ値を見つけて、「仮設発見」や「構造変化の発見」などをしやすくなります。
・平均に幅を持たせると外れ値が見える!?
それでは具体例を見てみましょう。以下のデータは、ある20日分の売上高を記録した時系列データとそれを元に折れ線グラフを描いたものです(図1)。
図1:時系列データと折れ線グラフ
時系列データの場合、このように折れ線グラフを描き、傾向(トレンド)やサイクルカルなパターンを確認します。ここでは、強い右肩上がり等の傾向が弱いことを確認の上、平均値を計算し、それを元に外れ値を考える方法を見ていきましょう(なお、ここで「強う右肩上がり等の傾向が弱い」ことを確認したのは、強い傾向がある場合、平均値に意味がないことがあるためです)。
図1にデータから計算した平均値の線を追記してみたのが図2です。この期間の平均値(平均売上金額)は347.9万円という値になりました。
図2:平均値の補助線を追記した折れ線グラフ
この平均値(347.9万円)が多いのか少ないのかについては、背景情報が必要ですのでここでは不問として、この値を基準に外れ値とは何かを考えていきます。
もし348万円の売上げの日があったときに、平均値から0.1万円多いことを持って、(もちろん、平均値よりも多いことは間違いありませんが)この日が平均よりも売れた日と解釈することはまれだと思います。つまり、我々は平均値という「点」で計算した値に対して、ある程度の「幅」と持たせ「平均はこのくらい」という使い方をしているわけです。したがって、この幅を超えて売上げが多かったり、少なかったりすると、「普段とは違う」つまり「外れ値」だと感じるわけです。
・平均からの幅に標準偏差を活用し外れ値を探す!?
この「幅」の持たせ方には、いろいろな方法があります。実務視点で「これくらい」と主観的に設定されることも少なくありません。それに対して、データから客観的な幅を持たせて考えたいときに「標準偏差」という値を活用することが出来ます。
標準偏差は、「Σ(個々の値―平均)/データの個数」で計算する値ですが、簡単に言えば「平均からのずれ方の平均(的な値)」と言うことが出来ます。今回のデータでは、97.7万円という値が計算されました。つまりこのお店の売上げは「平均347.9万円に対して、日々97.7万円ぐらいの幅(上下のずれ)が平均的に起きている」という事になります。
そこで、図3には、平均値に標準偏差を足した補助線と、引いた補助線を追記してみました。
図3:平均値±標準偏差の補助線を追記した折れ線グラフ
上下の補助線を越えている日は、普段(平均値に幅を持たせた値)よりも多いもしくは少ない日ですから、これを「外れ値」と考えて着目し、ヒントを考えていきます。
一つの方法は、上に外れた日の共通点(もしくは下に外れた日の共通点)を考え、何か売上げの多少に影響しているのかを「仮説」として考える方法です。これは「類比」という分析視点です。それに対して、上に外れた日(群)と下に外れた日(群)を比較して違いを発見し、何か売上げの多少に影響しているのかを「仮説」として考える方法を「対比」と言います。これら「比較」をすることがデータからヒントを導き出す非常に重要な方法ですが、外れ値に着目することで、比較をしやすくするという工夫がここに見られます。
二つ目は、外れ値の連続性への着目です。ここでは上に(または下に)外れた日が連続しているような傾向は見られませんが、外れ方が連続する(たとえば、上ブレが続いている)場合、そもそも平均値が変化した、つまり構造が変化したと考えることも出来るでしょう。人間は連続する変化から構造変化を発見するのが苦手で発見が遅くなりやすい傾向がありますが、このように変化の兆しを外れ値の連続で視覚化して確認することが出来れば、構造変化へのヒントを発見しやすくなります。
今回は、平均値や標準偏差といったExcelなどで簡単に計算できる指標のみでも、ヒントを発見できることを確認しました。もちろん、高度な分析手法を活用することも魅力的ですが、簡単な分析でも、日々しっかり確認し続けることがビジネスデータ活用では重要になります。