色々と機械学習を彷徨った結果ベイズ統計を勉強した話。
まぁ私実は主にインタアネットのデイタを使ったマアケテイングなどというものの仕事をしておりますわけですが。
最近こう、その話の流れで、トピックモデルなどというものを使ってその辺りを解決しようとする人が同僚にいたりするわけです。
詳細は割愛しますが。
で、いきなり、「LDAというのを使ってます」とか隣の席の人が言うわけです。
LDAとはなんぞや、と思うわけですよね。説明聞いてもわからんわけです。
試しに論文とか読もうとしてみるわけです。
もうAbstractの時点で、
ってなるじゃないですか。
英語力不足と相まって二乗にわからない。
と唱えつつGoogle先生に聞いてみると、
ここに行き着いたのです。
子曰、
Topic modelの最初の論文として位置づける必要があるのは以下の論文です。
Hofmann,UAI1999, Probabilistic Latent Semantic Analysis [2]
Hofmann, SIGIR1999, Probabilistic Latent Semantic Indexing [3]
じゃあここから読むか、と思って読んでみるわけです。
もうね、ここまで来たらお手上げですよ。
最初はここからって書いてある最初がわからない。
「あ、これ俺の知ってるスタート地点じゃない」
そんな時にたまたま流れてきたこのブログ記事。
データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 銀座で働くデータサイエンティストのブログ
もうね、押しましたよ僕は。
Twitterの、青地に「B!」と書かれたアイコンの横にある☆を。全力で。
そして即買いましたよ。緑本。
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 作者: 久保拓弥
- 出版社/メーカー: 岩波書店
- 発売日: 2012/05/19
- メディア: 単行本
- 購入: 16人 クリック: 163回
- この商品を含むブログ (21件) を見る
即読みましたよ。
割りとすんなり読めてたんですけどね。
8章入った瞬間思わず声が出たよね。
わけがわからないよ。
でまぁ、MCMCって何だとか調べたりしてようやく気づいたわけです。
あれ、俺、ベイズ統計ってちゃんと勉強してなくね?
という事で今更冒頭のベイズ統計を読んでみました、というお話。
ベイズ統計というか、所謂事前/事後確率みたいなのは、存在は知っていた、という程度だったので。
頻度論の方は多少勉強してたんですけどね。
何か凄まじく優しい本でした。
易しいのではなく、優しい。
中学校の教科書より優しい。
ここまで丁寧にひとつひとつの計算プロセスから例題からちゃんと解説してくれているのは進研ゼミ(中学講座)の赤ペン先生以来15年ぶりです。
1日半くらいで読んで、ちゃんと頭に入った気がする。
そして緑本の8章に戻ってみたらまぁ理解度が全然違いましたとさ。
ということでトピックモデルに行き着くまではまだ遠い。
全体的に記事にキレがないのは久々に書いたからです。