データエンハンサーの戯言置き場

データサイエンティストを挫折した人がデータとアナリシスのエンハンスメントについて考える

はじめての方へ

このページは初めての方に向けた自己紹介とその他諸々のページです。よしなに。




自己紹介

某インターネット企業にてデータアナリストを経てデータサイエンティストになれず、データエンハンサー(自称)、アナリシスエンハンサー(自称)をやっております。 ブログの内容は個人の意見・見解であり、所属組織の意見・見解とは異なる事があります。




データエンハンサーとは

自称です。

lucies.hatenablog.com




↓それでは最新記事をどうぞ↓



色々と機械学習を彷徨った結果ベイズ統計を勉強した話。

 

史上最強図解 これならわかる!ベイズ統計学

史上最強図解 これならわかる!ベイズ統計学

 

 

まぁ私実は主にインタアネットのデイタを使ったマアケテイングなどというものの仕事をしておりますわけですが。

最近こう、その話の流れで、トピックモデルなどというものを使ってその辺りを解決しようとする人が同僚にいたりするわけです。

詳細は割愛しますが。

 

 

で、いきなり、「LDAというのを使ってます」とか隣の席の人が言うわけです。

LDAとはなんぞや、と思うわけですよね。説明聞いてもわからんわけです。

試しに論文とか読もうとしてみるわけです。

もうAbstractの時点で、

http://livedoor.4.blogimg.jp/chihhylove/imgs/6/f/6f0e791f.jpg

ってなるじゃないですか。

英語力不足と相まって二乗にわからない。

 

 

 

 

http://serif.hatelabo.jp/images/cache/a7a2e47f7d47f6e6253499c15e31cc3ac4289204/b45264525ae0f32e8ae460369b5be14d14fb4ed0.gif

と唱えつつGoogle先生に聞いてみると、

Vol.27 No.3 (2012/05) Latent Topic Model (潜在的トピックモデル) | 人工知能学会 (The Japanese Society for Artificial Intelligence)

ここに行き着いたのです。

子曰、

Topic modelの最初の論文として位置づける必要があるのは以下の論文です。

Hofmann,UAI1999, Probabilistic Latent Semantic Analysis [2]

Hofmann, SIGIR1999, Probabilistic Latent Semantic Indexing [3]

じゃあここから読むか、と思って読んでみるわけです。

 

 

http://f.st-hatena.com/images/fotolife/a/a-kuma3/20120222/20120222012840.jpg

 

 

 

もうね、ここまで来たらお手上げですよ。

最初はここからって書いてある最初がわからない。

「あ、これ俺の知ってるスタート地点じゃない」

 

 

そんな時にたまたま流れてきたこのブログ記事。

データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 銀座で働くデータサイエンティストのブログ

はてブ偉大。Twitter偉大。

もうね、押しましたよ僕は。

Twitterの、青地に「B!」と書かれたアイコンの横にある☆を。全力で。

 

 

そして即買いましたよ。緑本。 

 即読みましたよ。

割りとすんなり読めてたんですけどね。

8章入った瞬間思わず声が出たよね。

 

わけがわからないよ。

http://cdn-ak.f.st-hatena.com/images/fotolife/v/vanacoral/20110527/20110527002837.jpg

 

 

でまぁ、MCMCって何だとか調べたりしてようやく気づいたわけです。

 

あれ、俺、ベイズ統計ってちゃんと勉強してなくね?

 

 

という事で今更冒頭のベイズ統計を読んでみました、というお話。

ベイズ統計というか、所謂事前/事後確率みたいなのは、存在は知っていた、という程度だったので。

頻度論の方は多少勉強してたんですけどね。

 

何か凄まじく優しい本でした。

易しいのではなく、優しい。

中学校の教科書より優しい。

ここまで丁寧にひとつひとつの計算プロセスから例題からちゃんと解説してくれているのは進研ゼミ(中学講座)の赤ペン先生以来15年ぶりです。

1日半くらいで読んで、ちゃんと頭に入った気がする。

そして緑本の8章に戻ってみたらまぁ理解度が全然違いましたとさ。

 

 

ということでトピックモデルに行き着くまではまだ遠い。

 

全体的に記事にキレがないのは久々に書いたからです。