ごきげんよう、二深すうちです。
私は今、「データを扱える人」になりたく「統計学を勉強してみよう」と本企画を立てました。
(※現在の私の立場は開発現場のPMO(一部PM)の人です。)
本企画は「統計学が最強の学問である」を読んで、自分なりに解釈・噛み砕いてアウトプットする企画です。
本記事は「統計学が最強の学問である」の第二章を二深すうちワールドでお話ししていきたいと思います。
本企画の第一章はこちら↓
「サンプリング」という、最小で十分なデータを
「統計学が最強の学問である」の第二章では、サンプリングのすばらしさ(全量(ビッグデータ)なんていらないゼ。)を説明してくれてます。え、そんなに大量のデータっていらないのですか?
ビッグデータ狂想曲
ITに興味があり、統計学に興味を持った方で「ビッグデータ」という単語を聞いたことがない方はあまりいないのではないでしょうか。
そして単語のイメージで「なんだか知らんが、大量のデータで何か分かるんでしょ。」とは推測がつくのではないかと思います。
もしくは「データマイニング」という単語はいかがでしょうか。
こちらも言葉のイメージ的に、データから何かを発掘(ここでは価値のある情報などでしょうか)することかなと印象を抱くと思います。
どちらにせよ、”たくさんのデータから何か価値のある情報を見つけ出そうとする”雰囲気が出ておりますね。
しかし著者は本書で「データをビッグなまま解析することがどれだけの価値を生むのか、投資するコストに見合っているのだろうか?」と問いかけてきます。
せっかく大量のデータがあるのだから、全部使って確実なおいしい情報を取り出したいものだと思うのですが、著者はなぜそのようなことを言うのでしょうか。
狂想曲を盛り上げる専門用語
この後、本書ではビッグデータとセットのようなよく聞く用語の紹介をされます。
(※本記事では本書の中で私が知っていた用語たちの一部抜粋とします)
うむ、いきなりなぜ専門用語を見せられるか若干疑問ではありますが、一旦は見てみましょう。
すでに貯まっている大量のデータから価値のありそうな情報や仮説を引き出すこと
「おむつとビールが同時に買われている割合」エピソードの元ネタ
所謂人間の言葉などのフリーテキストを分析するやり方
文章を単語ごとにぶつ切りにし、どんな単語が登場しているのか関係性を分析したりする
大量データも一つのサーバーで処理するのではなく、たくさんのサーバーに処理を振り分けて最後にまとめれば早く処理できるよ!ってやつ(まとめるのが大変なのでは?)
IPAの試験に出た。象のやつ。
データを分散処理するためのオープンソースでJavaで書かれた分散処理基盤(エコシステム)
え、君、データ解析もできるんか
Excelみたいな縦横の関係性がしっかりしているわけではない、必ずしも整理されていないデータ
※厳密に言うとExcelは表計算ソフトなのでちょっと違います。
本来はリレーショナルデータベース(RDB)という列(縦)と行(横)の関係性が成り立っているデータベースのことを言います。
SQLはリレーショナルデータベースから欲しい情報を取りだす呪文のことで
単語の前にNoがついているので、リレーショナルデータベース前提ではない形でデータを扱うという概念
Key Value Storeの略
こちらもリレーショナルデータベースの縦横の関係ではなく、KeyとValueの組で扱うデータを処理すること
非構造化データを含む大量データを分散処理するのに便利らしい
オープンソースの統計解析用言語
無料で、特に統計・学術分野では今も広く使われている
とまあ色々な用語が出てきましたが、ここで紹介した用語の多くは「統計」そのものというより「大量データをどう捌くか」の技術となってます。
ビッグデータその名の通り、大量のデータですね、処理に時間がかかってしまうでしょう。
「これらでデータ処理速度が爆速になります」といったセールストークがそのまま成り立ってしまいそうです。
しかし「ぶっちゃけ、ここに投資する意味があるのでしょうか。」と著者は言います。
え、そんなこと言い始めたら、すでにこの大量データを扱う仕組みに投資をした会社は涙目になってしまうではありませんか。。。
部分が全体に勝る時
皆さんは、1929年と言ったら何を思い浮かべますか?
今から100年前くらいですね。日本では昭和初期のようです。
この当時はアメリカの株価大暴落から始まる世界恐慌の時期となります。
日本もとばっちりを受け、当時の大学卒(当時のスーパーエリート)すら就職できない地獄のような時代だったそうです。
そしてその3年後の1933年のアメリカの失業率、その数25%(正確に言うと24.9%)。
そんな1933年にフランクリン・ルーズベルト大統領の新政府はニューディール政策を計画します。
その際、就職できず路頭に迷っていた優秀な若者を大量に雇用し活用するそうです。
ニューディール政策は脱不況と失業率を下げることがゴールでありまして、そのためには「失業者の数」が必要でした。当時の推計は300万人〜1500万人という、範囲の桁がおかしいし、下限と上限で何倍違うんだというレベルの推計でした。
そりゃそうです、第一章でまとめた1948年の「フラミンガム研究」の”2年に一回5000人のヒアリング×パンチカード管理”よりも前のお話しですもの。
当時のアメリカの人口は1億2000万人~1億3000万人ほどの人口だったので、いや~、果てしないビッグデータですねえ。
そんな当時の失業者数調査のアプローチは2つでした。
全数調査とサンプリング調査です。
アプローチ1は「失業者が登録カードに必要事項を記入し、近くの郵便局から郵送する」という全数調査
アプローチ2は「無造作に選んだ約2%の郵便配達地区(約200万人)に対してサンプリング調査」というサンプリング調査
先行して行われたのはサンプリング調査の方らしく、正確な失業率以外にも全国民の10%の人間が全国民の40%もの所得を得ているという格差が浮き彫りになったそうですが、「無造作に抽出!?その数値の正しさはどう証明するのだ!?」と全数調査を支持したそうです。
そんな支持された全数調査ですが、全員が全員協力的ではなく、結局のところ失業者の合計回答は実際よりも少なく偏っていたそうです。
方やサンプリング調査は、その後10年以上も慎重な検証を重ねられた結果、驚くほど正確なものだということが分かるそうです。
それからというもの、アメリカ政府はランダムサンプリングによる調査によって政策の方針を議論しているようです。
ちなみに著者は現代の人たちからも「サンプリング調査の結果だからあてにならない」という意見をいただくようです。それに対し「80年前の人たちからリテラシーが進歩してないようだ。」と発しています。
いやいや、正直、偏ってんじゃないの?って思いますよ。
なんなら数カ月前の私はそんな80年前の方たちと同じことを発言しておりましたよ、はい。
そして、この章で一番大事なポイント登場です。
「勿論、全数調査よりサンプリング調査の方が精度が低いのは間違いないが、問題はどの程度精度が低下するのか、その精度の低下が実際に下すべき判断や行動にどのような影響があるのかの方が問題である。逆を返すと、判断や行動に影響ないレベルの精度は無意味でそこにコストをかけるの無駄だ。」と著者は言います。
ちょっとちょっと、そこに投資した会社さん涙目ですよ。
1%の精度に数千万、投資しますか?
サンプリング調査が当てにならないのでは?と私は80年前の方たちと同じように発言していたわけですが、
これについてはまあまあな方たちも思うことだと思います。
例えば、「全人口1億2000万からランダムで0.5%、60万人を調査した結果、その60万人が全員失業者だった。でも、残りの99.5%が全員失業していなかったら、実際の失業率は0.5%にすぎないはず。
それなのに、この調査結果から“全体の失業率は非常に高いかもしれない”と推定できてしまうよね?おかしくないか?」と反論が出るわけです。
この理屈をそのまま受け取ると、「ほとんどの人が失業している」という結論になってしまいますね。
まあ極端ですが、ロジックとしては破綻はしてないと思います。
そして、全数調査ではない以上、結果が間違えている(ズレている)ことはあり得なくはないワケです。
しかしこの反論が”どの程度あり得るのか”についてをお話しすると、
例えば、0.5%の確率=200回に1回しか当たらない宝くじを、60万回一回も外れずに全部の当たりを引き続ける確率はどれほどでしょう。
このあたりのくじを引くたびに抽選箱に戻すやり方と戻さないやり方だと、戻さないやり方よりは確率が高いですが、それでも「200分の1の60乗」という奇跡が必要となるそうです。そんな奇跡、簡単に起きませんよね。
まあ、あり得ないワケですよ。
あたりのくじを引くたびに抽選箱に戻すやり方:復元抽出
あたりのくじを引くたびに抽選箱に戻さないやり方:非復元抽出
とはいえ、誤差は起きる可能性はあるわけです。
誤差を計算する方法は、統計学の用語では標準誤差と言います。
標準誤差は、言い換えると「実際には観測していない無数の世界線で調査をやり直したときのブレ」を、数式で先読みしているようなものです。
実際に何度も調査を繰り返さなくても、「この調査設計なら、平均値はこれくらいの幅で揺れるはずだ」ということを数学的に計算できるようです。すごいですね。
また平均から±標準誤差×2(正確に言うと1.96)の範囲に真の値が含まれている信頼性が約95%となります。
例えば、サンプリングした失業率が25%という調査結果が得られ、その標準誤差が0.5%だった場合、
全数調査をした結果得られるであろう真の失業率も24~26%の間にあると考えてほぼ(95%の確率で)間違いないということを統計学者が80年以上前に証明してくれています。
そしてこの標準誤差をさらに応用しますと、標準誤差の範囲を設定すればおのずと必要サンプル数が算出できるわけです。
例えば、「顧客は10万人規模である。男女別割合を調べた結果、顧客に占める女性の割合が70%だった。」と仮定します。
データ件数が10万件のうち、100件を調査した場合は標準誤差は4.6%、これは幅が広すぎます。
1000件だった場合は1.4%となるので、ふむふむいい感じ。だと思います。
そして8000件だった場合は0.5%となり、だいぶ精密かなと思います。
さらに1万件にした場合は0.4%、2万件は0.3%。んー、ここまで来たらその誤差、必要ですかね?
ぶっちゃけ、8000件(標準誤差0.5%)でも十分な気がしませんか?
「この多少の精度を改善することは、果たして数千万も投資する価値のあるクリティカルな影響を持つのだろうか?」と著者は問います。
必要ならビッグデータ技術に投資は惜しまない方がいいし、そうでないならそこまで投資しなくていいのかもしれません。
航空宇宙工学とかなら絶対必要だろうな。とは思いますが、所謂一般的な実務では、「どこまで正確か」よりも「その誤差が意思決定を変えるかどうか」の方が、よほど重要なのだと思います。
投資するか否かは、その分析結果にどれだけの価値があるかによる
著者は「まず正しい判断に必要な最小十分のデータを扱うこと」を推奨しています。
確かに、1%の誤差の改善が数千万レベルの売り上げ増やコスト削減に繋がるのであれば、その精度向上には十分な価値があると思いますが、その場合でも必ずしも始めから全ての解析を全データで行う必要はないとのことです。
時にデータ解析の工程は、探索的な作業を必要とすることがあるそうです。
「実際に分析してみたら明らかに理屈と反する結果が出たので、念のため違う解析手法を試してみる」ことや、「使用したデータ自体に何かしらの問題があることが分かったのでそこを修正する必要がある。」などということは熟練した統計家であっても避けることができない、むしろ、誤りを犯さないためにこうした予備的解析の労を彼らは惜しまないそうです。
結果を見ながらさまざまな手法やデータの切り口を試す探索的解析では、トライ&エラーの回数が重要になります。このトライ&エラーは作業量が重すぎたり処理時間が長すぎることは避けたいのです。
「最終的には全データを対象とした分析や検証が必要となるにしても、まずは適切なサイズのサンプリングデータを使って探索的解析で仮説のめどをつけた方がいい」と著者は言います。
これを読んだとき、システム開発において、プログラムはできるだけ小さな単位で作り、小さなプログラムの集合体にする方が良いのと同じ感じかなと思いました。
大作って、作った際の達成感は素晴らしいですが、一部を試したくても毎回全処理が必要なので時間がかかるし、関係性が強いとこっちを直してそっちも直してと影響範囲を考えながら修正をしないといけないので、確かにこまめに区切り、独立性を保った方が色々楽なんですよね。
では、実際に仮説を見つけるための適切なサイズとサンプリング方法は、「とりあえずデータの概観を掴むだけなら数千~1万件ほど抽出していじってみればいい。それくらいのデータならExcelでも対応可能。」とのこと。おお、Excelだけでも対応が可能なんて、素敵ではありませんか。
また、「もちろん、ビッグデータ技術が活躍することは大いにあり得るが、その速度と精度にどの程度の価値があるのかは、解析結果からどれだけの価値を得られるかによる。解析はそれ自体に価値があるものではなく、それを生かして何を行いたい、どれだけの価値を得られそうなのかによって異なるのである。」と著者は言います。”どれだけ正確か”ではなく、”その結果が判断を変えるほどの意味を持つかどうか”が大切なのですね。
結局は技術・ツール・さらには分析・解析すらもあくまで道具であり、それが意思決定に役立つかどうかが重要なわけです。
特別な道具がなくてもチャレンジできる素晴らしさ
今回は「統計学が最強の学問である」の第二章を自分なりにまとめました。
統計学というものは、特別な立場や環境がなくても、誰でも(勉強は必要ですが)分析に使える学問なのだと知れて、うれしさを感じました。
世の中には、始める際に初期費用が結構掛かる趣味や仕事があるわけです。
最近ですとVTuberなどでしょうか。ちゃんとやろうとすると10万~だったりするらしいですよね、あとはゴルフとかも結構掛かる認識です。
知人の知人にエアコンの取り付け業を始めるにあたり、始めに工具などの用意する必要があることを聞いたこともあります。
しかしこの章では、「たくさんのビッグデータを取り扱うツールや商品があったとしても、一旦はいきなり膨大なデータを扱う必要はない、特別なツールや商品がなくてもExcel(表計算シート)で分析は可能。(※要約)」と発されているので、特別なツールを使える人(会社や個人で高価なツールを用意できる人)でなくても、分析は可能なわけです。
そう、統計学の知識があれば、誰でも分析自体は可能であります。
なんとチャレンジしやすい学問なのでしょうか。
初期費用が掛からないって、結構大事ですからね。あとはツールなど自分自身以外の装備が必要なスキルって結構融通が利かなかったりするので、この身軽さはそそられます。だって道具が自分自身だけで済むので、場所や環境に強く縛られません。なんと素晴らしい。
そして、今回の章ではそれなりに統計学の専門用語や、計算の話も出てきました。
本書は知識を身につけさせることを目的とした本というより、タイトル通り「統計学が最強の学問である」という主張が主軸となっており、専門用語の深掘りや計算方法を丁寧に解説するような構成にはなっていません。
実際には、別の本で知識を補っていく必要がありますが、統計学で何ができて、どんなことに役立つのかが分からないまま入門書に手を伸ばしてしまうと、少しでも「難しい」「苦手だ」と感じた瞬間に、やる気は失われてしまうと思います。
だから今は、ただ夢を見せてくれるだけでいい。夢さえあれば、壁にぶつかったとしても、歩みを止めずに前へ進めると思うので。
次回は第三章を自分なりにまとめてみようと思います。


コメント