tjinjin's blog

インフラ要素多めの個人メモ

統計学を学び初めた話

About

最近運用中のサービスでログをbigqueryに貯め、Re:dashで可視化できるようにしました。Re:dashインスタンスを立てるまではよかったのですが、どんなグラフを作ればいいんだろうというのがわかりませんでした。悩んでいたところ、データサイエンティストという職業を知り面白そうだと思ったので、必要なスキルの一部である統計学を学び始めました。

データサイエンティストとは

こちらのブログにデータサイエンティストを名乗るなら最低限身につけて欲しいスキルが書いてあります。

tjo.hatenablog.com

例えばどんなことができるのか

実際にどんなことができるのかイメージ持つにはこのスライドがよさそうかなって思います。

www.slideshare.net

ビジネスで数値を扱うことは多いと思いますが、勘や経験でやっている場面が多々あると思います。そういったときにその勘や経験を言語化したり、補足したりするような使い方になるのかなと。

統計学の基礎

私は今この本を読んでいます。

標準偏差って何?という話からはじまり、最終的にはt分布による区間推定ができるようになるところまで解説されています。式展開が若干ありますが、ゆとり時代の数ⅡBをかじっていれば文系の方でも読めると思います。

数学の知識が足りないと思ったので、今数学を強化中です。(固定レイアウトなのでタブレットで読むといいと思います)

統計学のための数学教室

統計学のための数学教室

この本は練習問題があるので、実際に手を動かしながら読んでいます。高校時代にやったとはいえ結構忘れていることもあったり、今見るとこの公式ってこういう使い方なんだなーという発見があって興味深いです。

興味もった方へ

統計学について興味を持たれた方は初めの一歩としてこちらがわかりやすいかなと。標準偏差をグラフをつかってわかりやすく記載している資料です。

qiita.com

こちらは標本調査や仮説検定など標準偏差の理解から一歩進んだ部分までが書いてあります。

www.slideshare.net

実際に試してみたい

理論も大切ですが、まずはどんなものか試してみたい方はRを使ったサンプルの本がいいと思います。まだ途中なのですが、Rを使ってどんな風に分析していくかの事例を試す事ができる本です。ソースコードもDL可能なので、実際にRをインストールして試しながらやることをおすすめします。

ビジネス活用事例で学ぶ データサイエンス入門

ビジネス活用事例で学ぶ データサイエンス入門

SBクリエイティブ:【ダウンロード】『ビジネス活用事例で学ぶ データサイエンス入門』事例用データとRのソースコード

まとめ

私自身もまずは基礎を勉強し始めたところなので、正直に言って今後どうやって生かしていけるのかわかりません。ただ、統計学の基礎を学んでみてそのすごさとかを体感したので、データ分析もできるインフラエンジニアを目指して進んでみようと思います!まずは積んである本を消化しつつ、いわゆる緑本を理解できるまでやっていきたいです!