こかげむら

ゲーム好きな理系大学生のお話

完全独習 統計学入門を読んだ1

研究だったり,趣味だったりで使うかもしれないから統計学を勉強したいと思った.

初めはいろいろな人が書いたwebページを読んで勉強していたが,そろそろ何か本を読んでみたいと思い,ブログとかでよく見る下の本を購入して読み終えたのでその内容を忘れないように書いておこうと思う.

本の感想を先に言うと,初学者の自分に合った,最初の一冊に最高の本に出合えたと思った.

完全独習 統計学入門

完全独習 統計学入門

 

本当に初学者なので色々間違っているところがあるかもしれないけど,現段階で理解していることをあとで読み返して理解できるように書いておく.

 

データに隠れた特徴を見つける

日常で目にするデータにはいろいろな規則がある.例えば日本人成人男性の身長は人によってまちまち.しかし大体170前後の人が多く,身長1cmという人はおそらく存在しない.

このように日本人成人男性の身長においては,170前後の数が多く出現し,0や1などの極端に小さい数字は出現しない.という特徴(分布)があるということがわかる.

平均,分散,標準偏差

テストで[10, 20, 30, 40, 50]点の5人の生徒

これらの点数の平均は30点.

もし平均30点,ということだけわかっていたとしても,5つの数字の平均が30になる組み合わせは無限にある(例えば[0, 0, 0, 0, 150])から,どれだけ点数が散らばっているのかということも知りたい.

平均点からどれくらい散らばっているのかを考えたい.

平均点からの散らばりだから,5人の生徒のそれぞれの点数から平均30を引いて(これを偏差という)平均をとればいいのではと考える.

 ↓

[-20, -10, 0, 10, 20]

足すと0になってしまう.正と負が混在してるからこうなる.偏差を全部2乗して平均をとる二乗平均を使おう.

 (400+100+0+100+400) / 5 = 200 

これが「分散」というデータのばらつきを表す統計量.でも単位を考えてみると,点数を二乗して足し合わせた物だから,単位は『点^2』.使い勝手悪い.

分散の1/2乗が「標準偏差」という統計量になる.この場合単位は『点』.この標準偏差が使い勝手が最高.

この場合 標準偏差 = √200 = 14.14....(点)

標準偏差の意味

標準偏差は,各データが平均値から大体どれくらい広がっているのかを表す.

今扱っていたデータは[10, 20, 30, 40, 50]で平均値は30, 標準偏差は14.14

つまり30±14.14くらいにデータが広がっているということがわかる.

標準偏差を使えば,それが特殊か月並みかわかる

 扱うデータを日本人成人男性の身長に戻す.例えば,飛び抜けて高身長の男性を探す女性がいたとする.この時,身長が何センチの男性だったらその女性の要件を満たせるだろうか.

考える問題

175cmあれば,飛び抜けて高身長と言っていいだろうか?ということについて考えてみる.

方針

これは平均と標準偏差を使えば述べることができる.

まず,日本人成人男性の身長は正規分布に基づくことがわかっている.(この前提条件大事.正規分布は現実世界で最もよく観察される分布.)

この時,平均身長±標準偏差の範囲に約70%の人が入っている

さらに,平均身長±標準偏差x2の範囲に約95%の人が入っているということが言える.

2016年時点での日本人成人男性の平均身長167cm,標準偏差6.6cmらしい.(https://www.e-stat.go.jp/dbview?sid=0003224177

つまりこの時,

167 - 6.6 = 160.4cm, 167 + 6.6 = 173.6cm

167 - (6.6x2) = 153.8cm,167 + (6.6x2) = 180.2cm

より,「日本人成人男性は約70%の人が160.4cm以上,173.6cm以下であり,約95%の人が153.8cm以上,180.2cm以下である.」ということができる.

結論

したがって身長175cmの男性は7割の人より大きいということがわかるが,特別大きい問い訳ではない,180.2cm以上あれば,日本人成人男性においては特別大きい(Top2.5%)ということができる.

この女性には180.2cm以上の男性を紹介するといいっぽい

*ちなみにテストでよく聞く偏差値の話

大学受験の時,〇〇模試を受けて結果が帰って来た時よく目にした偏差値という言葉.偏差値の計算の仕方について書かれていた.

計算の仕方は以下のよう

  1. 平均点を偏差値50と定める.
  2. 平均点±標準偏差*nを偏差値50±10*nと定める.

この決まりによって計算されているらしい.上の話を踏まえれば,全体の70%くらいの人は偏差値40〜60に存在している.超成績が良い人というのは偏差値70以上の人で,そのくらいになると全体のTop2.5%くらいに君臨する人ということになる.

95%予言的中区間

この本では「95%予言的中区間」という言葉が使われていた.自分的にすごいわかりやすかったから解釈して書いてみる.

問題設定

100枚コインを投げるとする.表が出る枚数は何枚か(範囲指定してもいい.例えば.40枚から60枚の間のように)当てるゲームをする.当たったら指定した範囲の広さに応じて賞金がもらえる(範囲が狭い方が賞金が高い)けど,外れたら死ぬ,というルール設定.

私は死にたくないけど,できるだけお金はもらいたい.つまり,できるだけ狭い範囲を指定して賞金が欲しい.

この時,0〜100回の範囲で表が出ると予想すれば100%正解できるが,ゲームの意味がないので死ぬとする.

方針

コインは1/2で表が出るので,100回投げれば何となく50回くらい表が出るのではないかと考えられる.しかし,自分の命がかかっているのに「50回」と1点張りするのはリスクが高すぎる.

 60回はダメ?45回〜55回と予測するのはどうか?など,いろいろ考えられる.

この時使えるのが標準偏差を使った考え方である.

前提

N枚のコインを投げた時,表が出る枚数は近似的に,平均値がN/2で標準偏差が(√N)/2の一般正規分布になるということがわかっている.

つまり,今回の例だと表が出るのは平均50枚,標準偏差5枚の一般正規分布になるということがわかる.

結論

100回投げた時,コインの表が出る回数は平均(50)±標準偏差(5),つまり45〜55回の範囲に約70%で入っていて,

平均(50)±標準偏差(5)*2,つまり40〜60回の範囲に約95%で入っているということがわかる.

私は死にたくないので,約95%で的中させられる40〜60回の範囲を指定してゲームに臨むことにした.(5%で死ぬのは仕方ない)という感じで使える.

この95%的中する範囲というのは統計学でよく使われる範囲であるらしい.そこで,約95%というのは気持ちが悪く,ピッタリ95%的中させられるというようにしたい.そこで,今までは±標準偏差*2としていたが,±標準偏差*1.96としてピッタリ95%的中させられる範囲にする.

今回だと,40.2〜59.8枚がピッタリ95%予測的中区間ということになる.

いったんここまで

ここまでで,標準偏差を上手く使って区間推定ライクなことができるということがわかった.母集団と標本の話などもこの後しっかり出てくるが,疲れたからここまでにして続きはまた後日書く.