「ランダム化」は最強の武器らしい

ごきげんよう、二深すうちです。
私は今、「データを扱える人」になりたく「統計学を勉強してみよう」と本企画を立てました。
（※現在の私の立場は開発現場のPMO（一部PM）の人です。）

本企画は「統計学が最強の学問である」を読んで、自分なりに解釈・噛み砕いてアウトプットする企画です。
本記事は「統計学が最強の学問である」の第四章を二深すうちワールドでお話ししていきたいと思います。

前章はこちら

始めからはこちら

おいしい紅茶は先ミルク？後ミルク？

前回の章で因果関係には向きがあること、また単純な断面的なデータだけをクロス集計しても因果関係の向きは明らかにすることはできないとのことでした。
（例：煙草が依存症にするのか、依存症気質の方が煙草に手を出しやすいのか）
しかし、「データのとり方自体を工夫、あるいは、より高度な解析手法を用いれば、完璧にとは言えなくても、何が原因で何が結果なのか、そしてその原因を制御することによって、どれだけ結果を左右することができるのかをかなりの部分明らかにすることができる。」と著者は言います。

ちゃんと救われる方法があるのですね、それはワクワクします。
そしてこの章ではデータの取り方を工夫することにフォーカスをあてていくそうです。

さあ、登場です。
ウェブ界隈で「A/Bテスト」と呼ばれ、統計学では「ランダム化比較実験」と呼ばれるものです！

このランダム化比較実験がどれだけ強力かの理由として「人間の制御しうる何物についても、その因果関係を分析できるから」とのことです。
正直何言っているのか分かりません汗。続きを読みます。

このランダム化比較実験を打ち立てたのは現代統計学の父ロナルド・A・フィッシャー（前章にも登場しました）なのですが、これにより科学哲学を揺り動かし、科学で扱える対象の領域を爆発的に拡大させたと著者は言います。そして、倫理性や制御可能性などの現実的な制約はあるにせよ、「科学で扱いえないもの」なんて存在しないとも著者は言います。
（ちなみにここで著者は「この世には現代科学では割り切れないものだってある」の主張の類を全否定していて面白いです。）
そ、そんな革命が起きるんですか？ちなみに私はDr.STONEの千空のセリフ「科学の世界じゃ神は留守だ」が好きです。

フィッシャーは1935年に「実験計画法」という著を書いており、そこでランダム化比較実験を体系立てました。この著でミルクティにうるさい婦人が登場します。

その主婦はミルクティーは「紅茶を先に入れる」と「ミルクを先に入れる」では、味が全然違うと主張したそうです。
ちなみに「この一見どうでも良さそうな主婦の主張ですら、科学的に実証できるというのがランダム化比較実験の力なのである」と著者は言います。
いいや大事ですよ、ミルクが先か後かの違いだけで美味しさが変わるなら私は知りたい。
ちなみにカフェオレを作る際も違うんですかね？私コーヒー派なのでコーヒーで実験してほしいです。

この主張をある一人が「その命題をテストしてみようじゃないか」と提案します。
その人がそう、フィッシャーなのです。

彼は夫人に見えない場所で2種類のミルクティー「紅茶先入れ」と「ミルク先入れ」を用意、そしてランダムな順番で夫人にミルクティを飲ませ、夫人の答えを書き留め確率の計算をするという実験を行いました。これが世界で最初に行われたランダム化比較実験の考え方らしいです。

さて、ここで紅茶をランダムに飲ませたのはなぜでしょうか。

例えば、1杯のミルクティーで「紅茶先入れ」と「ミルク先入れ」を当てられたとしても確率は50％
例えば、交互に飲ませてすべて正解したとしても、交互に繰り返しているという法則が存在していれば、1杯目が正解していて、かつ法則性がバレた場合はそのあとの答えは分かってしまう。
例えば、前半5連続「紅茶先入れ」後半5連続「ミルク先入れ」も1杯目が正解してしまえば、どこかでヤマカンであててしまえばいいだけになってしまう。

これを解決するには、2種のミルクティーをランダムに飲ませ、どれほど当てられるかを検証すればいいというのです。
これがランダム化比較実験の基本的な考えとなります。

フィッシャーは更に「実験計画法」の中で夫人に実験のやり方をどの程度説明するべきか、何杯のミルクティーでテストするべきかといった詳細を検討し、かつ想定される夫人の回答結果と夫人がでたらめに回答してそれだけの正解率が偶然得られる確率を計算したそうです。

フィッシャーよりも前の科学者たちも”実験をする”ということはしていたが、”どのような手順で実験し、10回中何回成功すれば科学的に実証できたと考えれるのか”ということを考えた人間はフィッシャーの前にはほとんど（著者曰く）誰もいなかったらしいです。
そしてそのフィッシャーの考えた”科学的に実証するための手順”のうち、最も重要なアイディアがランダム化するという部分でした。

下記の表は私の方で用意したのですが、実際の実験では8杯（「紅茶先入れ」4杯「ミルク先入れ」4杯）用意して実験をしたそうです。（本書ではそこまで書いておらず。ナゼ・・・）

実験の設定は下記となります。
・ミルクティーは全部で8杯用意
・「紅茶先入れ」4杯「ミルク先入れ」4杯で用意
・主婦はこの8杯がどっちがどっちかと判断する

しかし統計的に見ると、これは「8杯の中から本物の「ミルク先入れ」を4杯を当てる問題」と考えることができます。
つまり、8杯正解するテストではなく「4つの当たりを選ぶテスト」として、下記表となります。

正解数	組み合わせ数	確率	パーセント
0杯	1	1/70	1.43%
1杯	16	16/70	22.86%
2杯	36	36/70	51.43%
3杯	16	16/70	22.86%
4杯（全問正解）	1	1/70	1.43%

4杯全部正解できる確率が1.43％になるのでだいぶ確率が低いですね。ですので主婦がでたらめに回答したとは考えられないのです。

ではなぜミルクティーの合計数を8杯にしたかというと、偶然にしては低すぎる確率（慣習的に5％未満）であれば、「偶然ではない可能性が高い」と判断するのが統計の世界の約束事らしいです。
3杯（合計6杯）正解だと22％、4杯（合計8杯）正解だと1.43％なので8杯に決まったのだと思います。用語としては有意水準5%というらしいのですが、本書ではここではまだ登場してきません汗（いやー、自分でよく頑張って調べました。）

本書に戻りまして

この考え方は研修やDMの効果測定にも使用できるそうです。

例えば、研修の対象となる従業員をランダムに半分に分けて、片方に提案された研修を受けさせ、もう片方には安い研修や通常業務をしてもらう。そして従業員パフォーマンスとして具体的な数値を定義し、研修参加直後やその後の1年間の数値を比較すればいい。と著者は言います。
もしその研修に効果があるなら偶然とは言えないレベルで受けたグループの方がそうでないグループに比べて平均的に高いパフォーマンスを示しているはずであると。

確かに、これなら全社的に一か八かで研修費用をかけなくても、意味がありそうか否か判断ができそうです。

これはDMでも考え方は同じで、DMを送って効果が高そうな特徴を持つ顧客をランダムに選んでDMを送り、その平均的な購買金額を送ったグループをと送ってないグループで比較をすればいいのです。ここで比較してから全体にDMを送るか否かの判断をすればいいのです。

これだけでビジネスにおける間違いはほとんど潰せます。これが誤差を考慮しない不完全なものであってもA/Bテストが最近のインターネット関連企業において重要視されるようになった理由と著者は言います。

小さい範囲で実験、とても大事そうです。

ランダム化比較検証と社会科学

皆さんは、科学と言ったら何をイメージしますか？
怪しげな試験管を眺める科学者？爆発させて頭をボサボサにしている科学者？
前者は、観察しており、後者は実験を失敗してますね。
そう、科学は「観察」と「実験」の積み重ねでできています。

著者は、統計学の汎用性の高さを強調します。
政治、教育、営業、スポーツ。どの分野でも、最速で最善の判断に近づける学問だと。
フィッシャーのランダム化比較実験がなければ、人類は誤差のある現象を科学的に扱うことができなかったのである。とも著者は言います。（だいぶ大掛かりな言いっぷりですね。）

例えば「血管を縛ればその先に血が流れる量が減る」「空中でリンゴを落とせば加速しながら落下する」
これは分かりきっていることで誤差は生じない。よくある中学生頃までに学ぶ生物学的な実験はこんな感じだと思いますが「どうすれば小麦の収穫率が上がるか」を科学的にテーマに取り組むにはどうすればいいでしょう。
きっと現地の農家さんがいちばん詳しいと思います。経験や感がそうさせると思います。
しかし、このような知見はフィッシャー以前は科学で取り扱えなかったようです。
そして先程の中学生くらいまでの実験では、毎回同じように上手くはいかないのです。

そりゃそうですよね、肥料の工夫にて実験をしても相手は自然。
気候に恵まれたり、同じ肥料、同じ畑でも麦そのものの個体差もあるわけです。
実験で正しい真実を確認するといった科学の方法論で取り扱えるとは、フィッシャー以前の時代にはあまり考えられていなかったそうです。

この誤差ですが、3つのアプローチがあるそうです。

その3つを本書では書いてくれているのですがまあ1・2は酷い汗。とりあえず紹介します。

１：実施のデータを全く扱わず「仮説やこういう事例がありました。」という話だけを元に理論モデルを組み立てる。
いや、これただの経験則止まりのやつではありませんか。

２：上手くいった事例のみを結果として報告
いや、よく科学学会で問題になるやつではありませんか。

そして最後の
３：ランダム化を用いて因果関係を確率的に表現しようとする
やっとまともなこと言ってきたよ。と正直思いました。
ただ、フィッシャーが提示するまでの世界では１・２が主だったのでしょう。
今だからありえないことも当時は当たり前だったのですよね、人を殺す緑(ヒ素緑)のように。

ちなみになぜ著者が小麦を例に出したかと言うと、フィッシャーが実際に農業実験でランダム化を適用したからです。
フィッシャーは大学で人間関係に疲れて20代終わりから40代前半までイギリスの片田舎の農場試験場の統計家として過ごすそうです。

なんだろ、天才って人付き合い疲れている人大イメージ。少し前に「象牙の塔」という言葉を知ったのですが、まさにそのイメージ。

そして、この農場で爆誕するのです、「実験計画法」は・・・。

もし、肥料Aと肥料Bとで小麦の収穫量の関連性を科学的に分析しようとした時、水はけやその土地自体の栄養の豊富さ、日当たりにより左右されてしまうかもしれません。
しかし畑自体を細かい単位に分割し、ランダムに肥料をまき分ければ平均的な条件はほぼ一致させることができます。

ランダム化とランダムサンプリングと統計学用語があるのですが、どちらも共通した特徴はランダムにすることで推定結果の誤差が制御できる特徴があります。
ランダム化してしまえば、比較したい両グループの諸条件が平均的にほぼ揃います。
揃っていない条件は今回実験しようとしていた肥料だけとなります。その状態で両グループの収穫量に誤差とは考えがたい大差が生じたのであれば、それはすなわち、肥料が原因で収穫量に差が出ている結果になったという因果関係がほぼ実証できたと言えるでしょう。

このフィッシャーが作り出した実験計画法によって、心理学や教育、政策、経営学など、複雑で誤差だらけの人間を対象とする科学は20世紀に大きく開花したと著者は言います。

この諸条件をランダム化してしまえば、平均的に比較したい両グループ間で同じになるという性質を仕事に置き換えるなら、従業員の年齢性別、心理的特徴が結果を歪める可能性があったとしても、ある程度の数でランダム化してしまえば問題ない。という有り難い性質となるのです。

これは面白い展開でした。ぜひ○○世代は○○だ論もランダム化比較実験を行っていただき本当の特徴を出していただきたいものですね。

ミシンを２台購入したら１割引！クレーム対応で1億5000万ドル以上売上増加！攻めの統計学

ランダム化比較実験は過ちを犯す可能性を小さなコストとリスクで潰すことができます。
先程は守りの実験でしたが、今度は攻めの実験に行きましょう。
そうです、小さなコストとリスクであえて間違いを犯すことができるのです。

小タイトルにミシンを２台買ったら１割引と記載しました。皆さんの家にはミシン、何台ありますか？服飾のプロ(コスプレイヤーさんはどの位置か分かりませんが)なら複数台持っていてもまあ有り得ると思いますが、だいたい一家に一台あるかなくらいだと思います。
この思いつき、実はアメリカのある企業で顧客一人あたりの売上を3倍以上に伸ばした大成功キャンペーンの発想です。

思い付き、と言いましたが、こちらジョーアンファブリック社は月に100万件以上のユニークアクセスを活かして積極的なA/Bテストに取り組んでいたそうです。何かしらのキャンペーンを打つときはいつも複数の案をランダム化してとりあえず試してみて、ダメそうならやめよう。そう進めていたようです。
そして少しずつ大胆な攻めの姿勢で掴んだ大成功キャンペーンだったのです。

この結果としては、確かに顧客は2台のミシンはいらなかったが、欲しいミシンが1割引きで購入できるので仲間を募って共同購入をしたそうです。
このキャンペーン広告が表示された顧客グループは、そうでないグループより平均して1人あたり3倍以上の売り上げを示したそうです。
勿論、この両者はランダム化の結果で表示された広告以外は平均的に等しい集団であると考えられているので、「どのキャンペーン広告が表示されたか」という要因によってもたらされたと考えてほぼ間違いないそうです。

ここで著者は統計学的な裏付けもないのにそれが絶対正しいと決めつけることと同じくらい、統計学的な裏付けもないのにそれが絶対誤りだと決めつけることも愚かである。と言います。
きちんとした統計学的思考ができている限りはランダム化比較実験のコストはそれほど高いものではなく、比較的安価な媒体で小規模なランダム比較実験を行った方が早く安く確実な答えを得られる可能性が高いのです。

また、顧客へのクレーム対応で売上増加に成功した事例もあります。
コンチネンタル航空（今はユナイテッド航空）が①ただ正式な謝罪の手紙を送る②謝罪の手紙とプレミアムプランへのお試し無料入会期間を渡す③何もしないという、3つのグループに分けてランダム化比較実験を行ったそうです。
結果として、何もしなかった人たち（③）は怒り続けた。謝罪を受け取った2グループ（①②）は、翌年の支出が8％増加。
さらに無料期間付きのグループ（②）の約3割は、その後も自腹で会費を払い続けたのです。
それからはトラブルが起こるたびに謝罪の手紙とプレミアムクラブへの案内状を送り、1億5000万ドル以上の売り上げ増加が得られたそうです。

正解のない意思決定について、正解がないのであれば、とりあえずランダムに決めてしまうのも、選択肢の価値としてはありとなるのです。
ただ決定をランダムにすることと継続的にデータを採取することさえ心がければ、後で正確にそれが良かったのか、どれくらいの利益につながったのかが評価できるのです。

ただ、ランダムは意外と難しいと著者は言います。

ここでのランダムは、「無作為」人間の意思がそこに入り込まないようにするのです。
ただ、人間が無作為らしく出した数字はそれほどランダムでなかったりするのです。

所謂4択問題の3が正解である確率が高かったり（ちなみに私はIPAの試験でそれを感じている）、
AとBをランダムに3つ並べる場合、AAAやBBBを避けてみたり。実は並びは8パターンしかありません。
そのうちAAAとBBBは2パターン。25％の確率で起こるはずなのに、私たちはなぜか避けたくなるのです。
完全に人の意思がありますね。

ランダム化する際はこのようなことは一切抜きにし厳密にランダムさを追求しないといけません。
しかし最近はExcelの「=rand()」で一発解決です。

そしてこのランダム化はアメリカの政府も取り入れていたり、政策を実地する前にランダム化を行うよう求める州法も既に存在し、公立学校の進学から裁判官の管轄まで多くの行政プロセスにランダムさが行きわたっているそうです。
（アメリカがやっているから正しい、とは言いません。
ただ、国レベルで取り入れる価値があると考えられているのは事実です。）

素晴らしきランダム化。しかし3つの限界

ここまでランダム化素晴らしい！と話が展開されていましたが、残念ながら、この武器はいつでも使えるわけではないそうです。

ランダム化には壁が3つ存在するそうです。

１：現実　ランダム化を行うこと自体が不可能な場合
２：倫理　行うことが許されない場合
３：感情　行ってもいいが、やると明らかに大損する場合

１：現実　ランダム化を行うこと自体が不可能な場合
すごく簡単に言ってしまえば、今の恋人と結婚すべきか。とかそういう類です。
一世一代の決断をコイントスで決める人は、なかなかいません。
これだけが例だとちょっとふざけているように見えてしまうので、もう一つの例はある会社が大規模な企業買収を仕掛けるか。などです。
後はランダム化しようにも条件を制御することができないことです。
例えば「大地震を経験した社員は精神的にタフになる」という仮説。これを検証するには地震をコントロールしなければなりません。もちろん不可能です、人類はまだその技術がありません。もし人類が地震を自在に起こせるようになったら、その時はランダム化しなくていいですね。

２：倫理　行うことが許されない場合
そして大地震に関しては、倫理的にダメですね。倫理は文字通りの意味です。
統計家たちの間で共有されている倫理的ガイドラインを著者が紹介してくれます。
１、ランダム化によって人為的にもたらされるどれか一つまたはすべての介入が明らかに有害である（その可能性が高い）場合はダメ
簡単に言うと、明らかに悪いとわかっている実験はダメです。
２、仮にすべてが有害でなくても明らかに不公平なレベルでものすごくいいものとそれほどでもないものが存在していると事前に分かっている場合もダメ
簡単に言うとランダムな国民の半数のみに減税するなどです。見るからに不公平ですね。
しかし面白いのが、一見して一方のグループにとって良いことであっても、統計学的実証が不十分で実際のところどっちが良いのだか分からない状況であれば、ランダム化比較実験は正当化されうるそうです。
アメリカの事例として、一部の貧困家庭のみ、一部の失業者のみ、一部の低所得者のみ・・・という、一部に支援を与える（ものすごくいいものの）ようなものも、実際にはそれがかえって無益もしくは有害なものではないかという議論があり倫理的な許可が下りたそうです。
そしてその結果、結局は悪い結果が示されたこともあるそうです。

３：感情　行ってもいいが、やると明らかに大損する場合
こちらは簡単にランダム化と言いますが、選ばれた側は完全に運なのです。どう思うか、そりゃ感情が付きまといますね。
「適当に決められるのは嫌。」「自分が損する側に回るかもしれない、そんなのズルい。」そのような感情は本当に注意しないといけません。
それで言うと、先ほどの航空会社はなかなかしびれるものがあります。もし顧客が「自分だけ実験台にされた」と感じれば、不信感につながる可能性もあります。
（なお、私は原典を確認できていません。マーケティング分野では有名な事例として語られていますが、一次資料までは追えていません。）

おいしい紅茶は先ミルク？後ミルク？
ランダム化比較検証と社会科学
ミシンを２台購入したら１割引！クレーム対応で1億5000万ドル以上売上増加！攻めの統計学
素晴らしきランダム化。しかし3つの限界

私も科学者になれるらしい

私も科学者になれるらしい

著者は「科学とは白衣を着て怪しげな機械や薬品をいじくることではなく、正しいことを最大限謙虚に、そして大胆に掘り下げようとする姿勢であると私は思っている」と記す箇所があるのですが、それがなんだか嬉しかったです。

私は中学生時代、運動部で所謂ハブられていたので転校先では運動部に入りたくないという理由で科学部に所属していたのです。実はその時の自由研究が佳作ですが賞も頂いてます。
入部の理由は不純でしたが、何かを調べるのは好きだったんでしょうね。
そして今では大好きなDr.STONEの千空と同じ科学部だったって言えるの、誇らしい笑。

当時は理科室の薬品は先生に交渉すれば使わせて貰えたわけですよ(ちなみにアンモニアを使わせてもらった時はアホなので至近距離で嗅いでひっくり返りました。若気の至りです。)、でも社会人になって研究職じゃない限りその手の実験なんてできないわけです。そんな中、統計学に会えて幸せですね。

今回、「ランダム化はいつでも使える武器ではなく、壁が立ちはだかっている」までのお話でした。
次回は第五章を自分なりにまとめてみようと思います。
さあこの壁を崩す答えはあるのでしょうか。