読者です 読者をやめる 読者になる 読者になる

何となく脳汁を垂れ流す

データサイエンティスト見習いの卵補佐が少ない脳みその絞り汁をヘンゼルとグレーテルの如く点々と垂らしていくブログ。

相関と因果の混同

<議題>相関と因果の混同<議題>


<中身>

 ちょっと備忘録のようなアイデアメモのような、
 そんな事をこのへんに書いていきます。


<ヘッダー>
 今回は「相関」と「因果」って混同しちゃいけないよねって話。

</ヘッダー>


<事例>

1.コーヒーと年収の関連。
 要約すると、「コーヒーにこだわる人は年収高い!」っていう情報。
 逆だよね。
 どちらかと言えば、年収高いからコーヒーにこだわる余裕が出来るんだよね。
 ちょっと考えればわかると思うんだけど、やっぱりデータを出してきたところで信用できない。
 確かに統計的な「相関」はあるでしょう。
 けど、「因果関係」という方向で見たらそれはよくわからない。

 まぁこの程度ならまだ良いですよ、引っかかる奴が馬鹿、で済むから。



2.ゲームと犯罪
 凶悪犯罪が起こるとよく起こりますよね、凶悪なゲームが犯罪の原因だ、って議論。
 この議論も多くの場合、「相関」と「因果」の混同が起こっている気がするのですよ。

 ちょっと具体的な数字まで出て来なかったんだけど、仮に凶悪犯罪の犯人が凶悪なゲームをやっていたとして、果たしてゲームが犯罪の原因となったと言えるのか、っていう。

 「そもそも犯罪をするような奴だからそういうゲームに手を出してたんだ」

 とか。素質が先か、影響が先か、ってこれだけ見てもわからないのですよね。
 議論するにはデータが足りないですよ、根本的に。
 でも、ゲームを悪だと決めつけてる層って一定数いるし、相関と因果を勘違いしている人も一定数、いるんだ。


3.おむつとビール
 こちらも結構有名な話。
 簡単に言うと、「ビールを良く買う人はおむつもよく買う、だから近くにおけば『ついで買い』が増えるはず」という理屈。
 この記事によるとそれは都市伝説みたいだけど。

 そもそもビールのついでにおむつを買うって、酔った勢いで何をする気かと

 でもその下の「ジュースと咳止め薬」とかの事例も含めて、
 確かに統計的な「相関」はあるのかもしれないけど。
 じゃあその裏の「因果」の部分はどうなってるの、っていうと別の話なんだよね。

</事例>


<結論>
 ビッグデータとかデータマイニングとか、結構あちこちで流行っているけれど。
 そこから分析出来るデータが単なる「相関」なのか、それとも理にかなった「因果」なのか。
 騙される事って結構あると思うんだよね。
 
 じゃあどうすれば騙されないの、って。
 結局は基本的な「ロジカルシンキング」じゃないのかなーって思ったりするわけです。
 

</結論>

 

<おまけ>

 最後にここで問題です。
 1.ソフトバンクの売上は過去最高を記録しました。  
 2.ソフトバンクiPhoneを取り扱っています。
 3.それに対してiPhoneを取り扱っていないdocomoは売上が去年より300億円落ちました。
 4.iPhoneを取り扱っているauも業績を伸ばしています。
 補足→http://japan.cnet.com/news/business/35031415/?ref=rss

 さて、iPhoneの取り扱いと業績にはどのような「因果」があるでしょうか。

 </おまけ>

</中身>