2014年05月03日

統計学が最強の学問である あたまにスッと入らない統計学のすすめ



家内が図書館から借りていたので読んでみた。

町田の図書館でも10冊蔵書があり、80人が予約していて、なかなか人気のある本だ。まさに、本はタイトルで売れるという好例だろう。

同じ著者・西内啓さんの、「1億人のための統計解析」の読んだ。こちらは、「統計学が最強の学問である」に輪をかけて理解できなかった。

エクセルを使うと相当高度な分析までできることはわかったが、ケースもあまり興味を惹くものではない。実際にエクセルを立ち上げて、試してみればまた違うのかもしれないが、そこまで興味が持てなかった。

ちなみに、ケースは1.和食レストランの夜の売り上げを増やす、2.事務機器販売の販売戦略を立てる、3.情シスの手助けなしで、ECサイトの顧客行動を分析する、4.画像処理機器の過去5年のデータを元に販売予測を立てる、というものだ。



さて、この「統計学が最強の学問である」という本だが、はっきり言って「統計学のすすめ」であって、「入門書」ではない。

しろうと向けに書かれた本にしては、難しすぎる。あたまにスッと入らないし、この本を読んでも単語の意味すらわからない。

たとえば、この本でよく出てくる「カイ(χ=ギリシャ文字)二乗(じじょう)検定」と「p値」だが、言葉の説明すらない。その部分を引用すると(本書83ページ)、

「こうしたクロス集計表(ある企業のA/Bテストの結果が前に出てくる)について『意味のある偏り(かたより)』なのか、それとも『誤差でもこれぐらいの差は生じるのか』といったことを確かめる解析手法に『カイ二乗検定』というものがある。…」

というぐあいに、結局「カイ二乗検定」というものが何なのか、わからずじまいだ。

同様に、この本で頻出する「p値」だが(本書84ページ)、

「この『実際には何の差もないのに誤差や偶然によって、たまたまデータのような差(正確にはそれ以上に極端な差を含む)が生じる確率』のことを統計学の専門用語で「p値」という。

このp値が小さければ(慣例的には5%以下)、それに基づいて科学者たちば、『この結果は偶然得られたとは考えにくい』と判断する。」

この「カイ二乗分析」や「p値」といった消化不良の専門用語が、この本のところどころに出てくるので、フラストレーションが溜まる。

目的がいわゆるビッグデータに興味がある人なら、以前このブログで紹介したトーマス・ダベンポートさんの「分析力を武器とする企業」が世界的ベストセラーで、具体例を満載しているので、こちらの方が良いと思う。

分析力を武器とする企業
トーマス・H・ダベンポート
日経BP社
2008-07-24


ちなみにダベンポートさんの本では、この本にも取り上げられている「オムツを買う人は、ビールも一緒に買う」という事例のルーツを調べた結果、それは都市伝説であろうと結論づけている。

ともあれ、参考になる点をいくつか紹介しておく。

★あみだくじ必勝法
あみだくじにも当たる確率がある。この本で紹介されている8本の縦線、4本の横線のあみだくじの場合、4番目の線の当たる確率が21%で、一番右の8番目の線は3.3%だという。

★ダイレクトメールで売上を上げる方法
西内さんがかかわった案件で、いままで漫然と送っていたダイレクトメールを、「どういった顧客には送り、どういった顧客には送らないか」を最適化することで、同じコストで、売上を6%上げる「ズル」ができたという。

DMによるマーケティングの高度化に興味がある人には、まずはこのブログの詳細なあらすじを読んでから、「TESCO顧客ロイヤルティ戦略」を読むことをおすすめする。

Tesco顧客ロイヤルティ戦略
C. ハンビィ
海文堂出版
2007-09


★サンプリングが情報コストを激減させる
分析対象のデータをすべて分析対象とする実務上の必要はない。「標準偏差」という考えが80年以上前に統計学で生まれた。

たとえば失業率が6%、標準偏差が0.5%だったとしたら、失業率が6%+/ー1%の5〜7%に収まっている確率は95%だということだ。

ある一定数のサンプル数があれば、それ以上増やしても、標準偏差の差は小さい。たとえば10万人の顧客のデータを調べる時、8,000名まで調べれば、標準偏差は1%となり、実務上はかなり正確なデータとなる。

ちなみに、前述のTESCOは、以前は全英のスーパーマーケットの売上POSデータの5%を分析対象としていた。競合のSainsburyは100%分析しているので、現在はもっと精度を上げてきているかもしれない。

★世間にあふれる因果関係を考えない統計解析
この説明も参考になる。たとえば、ある商品の購入者にその商品の広告を見たかと聞くと、5割近くが見た・たぶん見たと回答したとする。これで単純にキャンペーンの効果があったと結論づけることはできない。

非購入者にも、その商品の広告を見たかと聞くと、非購入者の方が広告を見たという結果が出ることがあるからだ。

「広告を認知していたから商品を購入した」のか、「商品を購入したから広告をその後も認知していた」のかがわからないのだ。これが「因果関係の向き」だ。

★「ランダム化」は最強の武器
現代統計学の父として、この本で紹介されているロナルド・フィッシャーは、ミルクティーは牛乳を先に入れるか、紅茶を先に淹れるかで議論になったときに、それぞれの淹れ方のカップを10個用意して、ランダムに置き、婦人にテストさせた。1920年代末のことだ。

これがランダム化比較実験の最初だという。その他にもフィッシャーは、農地を40に分割して、ランダムに20カ所選んで、肥料Aと肥料Bをテストするといったランダム化実験を行っている。

ちなみに婦人は正確に違いを言い当てたという。その後2003年に英国王立化学協会は、牛乳は75度を超えると変質するので、牛乳は紅茶の前に注がれるべきだと発表しているという。

なるほど、だから低温殺菌牛乳は65度とか75度とかで加熱殺菌しているので、味が変わらないのだろう。



もっとも、日本の普通の牛乳の場合は135度で数秒殺菌しているので、日本の牛乳でミルクティーを作れば、どちらが先でも味は変わらないかもしれない。

★「ミシンを2台買ったら1割引き」で売上は上がるのか?

アメリカで成功したキャンペーンの事例だ。このキャンペーンにより、顧客はわざわざ友人や隣人を誘って、共同購入を呼び掛けた。つまり、優秀なセールススタッフを雇い入れるのと同じ効果があったのだ。

ミシンを2台も買う人はいないので、不発に終わったキャンペーンでは?という第一印象だったが、なるほどと思う。こんな考え方もあったのだ。

この本の後半はかなり専門的な説明で、回帰分析一般化線形モデル重回帰分析ロジスティック回帰、テキストマイニングの「形態素解析」、ベイズ派と頻度論派の確率をめぐる対立、といった話題が紹介されている。

筆者が大学の教養課程で受けた統計学の授業の教官は、たしか村上さんだったと思う。てっきり、村上陽一郎教授だとばかり思っていたが、村上正康教授かもしれない。村上正康教授は、「統計学演習」という本を出している。

統計学演習
村上 正康
培風館
1989-01



チャレンジしてみたい人にはいいかもしれないが、統計学の入門書としては、ちょっと難しいので、統計学のすすめとして読むのが良いと思う。


参考になったら、投票ボタンをクリック願いたい。





Posted by yaori at 22:52│Comments(0)TrackBack(0) ビジネス | 趣味・生活に役立つ情報

この記事へのトラックバックURL