HomeProjects
 
  

統計の楽しさ

2020年12月11日

統計とは何をする分野なのか、というと、基本的に大量にデータがある際、どれくらいの確からしさで、ある傾向があるといえるのか、ということを考える分野です。つまりすごくツール的な観点が強く、あくまでデータを少しいじったことがある人の方が楽しめる分野であるわけです。しかし最近ではTwitterやfacebookなどのデータがAPIなどでいじれるようになってますので、具体的に例えば「Twitterで自分のフォロワーがいつ活動しており、そしてどの時間帯に一番retweetする確率が高いのか」といったことを調べたい時に便利です。そういったものを計算し、何時頃にどのような内容のtweetを流すとインパクトがおっきいですよ、的なサービスがあってもおかしくないですよね。そういう使い方です。

もちろん歴史的には科学の理論を確かめるために統計は非常に大切な役割を果たしてきました。例えば、「ワインを飲むと心臓病になりにくいってほんと?」という話を具体的なデータで確かめるために使われたりしています。そういったトリビア的な話から、もっと大切な「がんの新薬Aはどれぐらい利くのか」という切実な問題まで、信憑性を理解するために統計の知識があるという事はすごく大事なのです。また、実は裁判なんかでもとても重要な役割を果たす事があります。

統計の専門家がめちゃめちゃ分かりやすく、統計の面白さを伝えているTed Talkがありますので、是非これをまずみてみることをお勧めします。

アイディアとしては難しいものではありません。とにかくデータありきの分野ですので、具体的なデータからどういうことをする分野なのか、ということを学ぶのが一番いいかな、と思っています。とにかく、論文や、ウェブサイトなどで発表されている統計手法を用いた解析結果を読み取りたい、という人や、データが手元にあって、傾向の予測があるので、今すぐ使いたい、という人には以下の本がおすすめです。

The Statistical Sleuth: A Course in Methods of Data Analysis

全ての手法が具体例に基づいて紹介してあり、めちゃめちゃ楽しいです。この本は、ハーバードのstat139という授業の教科書として使われており、「統計の手法が使えるようになる」、ということを重要視して書かれた本です。そのため、計算は全部パソコンのプログラムに任せる、というとても実用的な方向性で、「R」といった統計プログラミング言語の勉強も一緒にすることになります。僕は今のところその授業でカバーされる範囲を読み(本の1/3ほど)、10週分の宿題をやってみましたが、確かにめちゃめちゃ理解が広がります。統計学を使えるようになる、という観点では、とにかく色んな例を自分でいじってみて、どんなことができるのか、何を知りたい時にどれを使えばいいのか、という感覚を養うのが大事なようです。

この本では、残念ながら理論的な背景はあまり説明してくれません。これを補うために僕は、ハーバードのもう一つの統計の授業、 stat110という授業のビデオ(ネットでハーバード生用に公開されている)を全て見て、宿題を解きました。この授業はそれはもうめちゃめちゃおすすめなんですが、残念ながらハーバード外の人は見れないようです。これは一度ハーバードの近辺に住んで、聴講していいかの許可を得て、忍び込みに勉強しにくるぐらいの価値がある授業です。例えばその授業では

全体の1%の人がかかる病気の検査をして陽性(病気の疑いがある)となった際にどれくらい心配するべきなのだろうか?それが95%の精度で正しい検査だったとしたら、実は自分が本当に病気な確率は16%しかない。

といったものの考え方を教えてくれます。これの謎解きは

例えば1000人が検査を受けたとして、そのうち10人が本当に病気であり、50人が誤診を受けることになるので、たった10/(10+50)=1/6の確率でしか病気ではありえない

ということです。統計は時にすごく直感に反するような結果につながる、だからそこに価値があるんだよ、というとてもいい例だと思います。

数学的な基礎を固めるために、僕はこのstat110という授業の他、以下の本を一冊読みました。

Statistical Inference

この本は極めて数学的ですが、上で使われている手法の理論的背景をきっちり説明してくれています。結構密ですので、僕も読むことは読みましたが、具体的な手法が出てきた時に、あぁ、こういうアイディアを元にきっちり作られたやり方なんだな、と信憑性を確認し、そしていざとなったらここにかえってこればもう一度根本から確認できる、ということを知っている程度です。数学的な体力がある人しか読み通す事はできないでしょうし、そこまでおすすめではありません。でも厳密に知りたい人にはこれをreferenceとして使えるよ、という話です。

他にもstat110を教えているハーバードの教授にどんな本を読んで勉強したらいいのか、とお聞きしたところ、以下の本をお勧めして頂きました。今の教科書を読み終えたら順次読んでいこうと思っていますが、まだ僕は目を通していませんので、ご了承を。でもどれもめちゃめちゃ面白そうです。

大根占 一郎

大根占 一郎

統計を愛し、統計に愛された男

 

© 2021