データエンハンサーの戯言置き場

データサイエンティストを挫折した人がデータとアナリシスのエンハンスメントについて考える

はじめての方へ

このページは初めての方に向けた自己紹介とその他諸々のページです。よしなに。




自己紹介

某インターネット企業にてデータアナリストを経てデータサイエンティストになれず、データエンハンサー(自称)、アナリシスエンハンサー(自称)をやっております。 ブログの内容は個人の意見・見解であり、所属組織の意見・見解とは異なる事があります。




データエンハンサーとは

自称です。

lucies.hatenablog.com




↓それでは最新記事をどうぞ↓



相関と因果の混同

<議題>相関と因果の混同<議題>


<中身>

 ちょっと備忘録のようなアイデアメモのような、
 そんな事をこのへんに書いていきます。


<ヘッダー>
 今回は「相関」と「因果」って混同しちゃいけないよねって話。

</ヘッダー>


<事例>

1.コーヒーと年収の関連。
 要約すると、「コーヒーにこだわる人は年収高い!」っていう情報。
 逆だよね。
 どちらかと言えば、年収高いからコーヒーにこだわる余裕が出来るんだよね。
 ちょっと考えればわかると思うんだけど、やっぱりデータを出してきたところで信用できない。
 確かに統計的な「相関」はあるでしょう。
 けど、「因果関係」という方向で見たらそれはよくわからない。

 まぁこの程度ならまだ良いですよ、引っかかる奴が馬鹿、で済むから。



2.ゲームと犯罪
 凶悪犯罪が起こるとよく起こりますよね、凶悪なゲームが犯罪の原因だ、って議論。
 この議論も多くの場合、「相関」と「因果」の混同が起こっている気がするのですよ。

 ちょっと具体的な数字まで出て来なかったんだけど、仮に凶悪犯罪の犯人が凶悪なゲームをやっていたとして、果たしてゲームが犯罪の原因となったと言えるのか、っていう。

 「そもそも犯罪をするような奴だからそういうゲームに手を出してたんだ」

 とか。素質が先か、影響が先か、ってこれだけ見てもわからないのですよね。
 議論するにはデータが足りないですよ、根本的に。
 でも、ゲームを悪だと決めつけてる層って一定数いるし、相関と因果を勘違いしている人も一定数、いるんだ。


3.おむつとビール
 こちらも結構有名な話。
 簡単に言うと、「ビールを良く買う人はおむつもよく買う、だから近くにおけば『ついで買い』が増えるはず」という理屈。
 この記事によるとそれは都市伝説みたいだけど。

 そもそもビールのついでにおむつを買うって、酔った勢いで何をする気かと

 でもその下の「ジュースと咳止め薬」とかの事例も含めて、
 確かに統計的な「相関」はあるのかもしれないけど。
 じゃあその裏の「因果」の部分はどうなってるの、っていうと別の話なんだよね。

</事例>


<結論>
 ビッグデータとかデータマイニングとか、結構あちこちで流行っているけれど。
 そこから分析出来るデータが単なる「相関」なのか、それとも理にかなった「因果」なのか。
 騙される事って結構あると思うんだよね。
 
 じゃあどうすれば騙されないの、って。
 結局は基本的な「ロジカルシンキング」じゃないのかなーって思ったりするわけです。
 

</結論>

 

<おまけ>

 最後にここで問題です。
 1.ソフトバンクの売上は過去最高を記録しました。  
 2.ソフトバンクiPhoneを取り扱っています。
 3.それに対してiPhoneを取り扱っていないdocomoは売上が去年より300億円落ちました。
 4.iPhoneを取り扱っているauも業績を伸ばしています。
 補足→http://japan.cnet.com/news/business/35031415/?ref=rss

 さて、iPhoneの取り扱いと業績にはどのような「因果」があるでしょうか。

 </おまけ>

</中身>