統計学一日目〜全てのデータは富士山みたいになる
こんばんは。
最近、統計学の勉強を始めました。きっかけは以下のバズってたtwitterから。
大学最後の2ヶ月で、元彼、好きだった人、女友達、男友達の合計500人の特性を全てデータ化して、関係の継続年数と好き度合いをアウトプットにして、Rでモデル組んだの。それに結婚候補者の10人のデータいれて、1番結果良かったのが今の旦那で、付き合って結婚したの。本当に統計学は最強の学問。
— ちおみん (@chiominc) March 30, 2019
これを読んだ感想は「きな臭えなあ」
普段医学統計に触れているので、「本当に統計学は最強の学問」の部分は理解出来ます。でも、「好き度合い」ってどうやってデータ化するん?本当にそんなこと出来るんか?などと疑問点が湧いてくる〜。
でも、正確に指摘できない自分。
きな臭い、でも指摘できない。モヤモヤするわー。
そうだ!勉強しよう!
ってなったのが三日前の話。
そして本日ついに行動に移す。最寄りの紀伊国屋書店で目に止まったダイアモンド社「統計学は最強の学問である【実践編】」を購入。
50ページほど読んでみた感想はやっぱり難しい。
元々文系なので数字は苦手です。標準誤差、信頼区間、Z検定初めて聞いた言葉や考え方が睡魔となって襲いかかる。
でもまだ一日目なので、昔から書いて覚える派だった僕は睡魔に誘われる前に今日勉強したことを自分なりに書いてみます。
正規分布について
正規分布とは下記のやつ。
ガウスって人が発見したそうで、「健康診断のデータから抽出しら大学生の身長」や「街頭アンケートで得られるお祭りで使う金額」など多くのデータはこんな分布になるそうです。
でも、本当に綺麗な正規分布図を描くのでしょうか。
例えば、高校の期末テストで担当の先生が、授業で言ったことしかテストに出さなかったとします。
真面目な生徒はノートをきっちり取っていたので満点近くとれたが、授業は寝ていたりお喋りしていて、テスト直前になり教科書で自分なり勉強した生徒は全然点数がとれない。
点数取れる生徒が100点〜95点付近に多く、取れない生徒は30点くらいに多く二極化してマクドナルドのマークみたいな分布になることもあると思います。
こういう時もサンプルを抽出して平均値を並べていけば、正規分布になる。
具体的に言うと、先ほどのクラスの生徒を4人抽出して平均を出す。
A君100点、B君40点、C君95点、D君は30点 平均点は66.25点
D君30点、B君40点、E君100点、A君は100点 平均点は67.5点
・・この作業を繰り返す。
その平均値を並べると、富士山のような綺麗な正規分布になるそうです!(いきなり)
詳しい理由は理解できていないんですが、平均値を取って行ったら、中心の値が多くなって富士山の形に近づくということだけ理解しました。
こんな感じでどんなデータも結局富士山になるよね!って理論が中心極限定理。この定理は統計学の礎だそうで最初に理解しておくべきだそうな。
これが何になるかよくわからんけど、とりあえず今日はここまで。