遅い社会と早い個人のLearning to Learn

人工知能による失業増大はよく議論されるが、その実態と個人レベルでできる対策について掘り下げてみたい。書き下してみたら非常に長くなってしまったので分けようかとも思ったのだが、これらのトピックが一連でつながっていることを強調したかったため、あえて一投稿とすることにした。後日分割して同内容を再投稿するかもしれない。

AIにより失業する可能性の高い職業と、逆に需要の増える職業について議論した論文が2013年に発表されて話題になった [1]。その著者の一人であるMichael A. Osborne教授は、オックスフォード大学において著者と同じ建物に勤務している。紅茶を常にloose leafで丁寧に入れる穏やかな方だ。どこまで論文の予想を信じるべきかについて、Gaussian Process (GP)を使ったこの論文のメソドロジーを聞いたりもしたのだが、最近正式なジャーナル論文になっていたので最新版をReferenceに載せておいた。

  • 著者が個人的に思う彼の論文の良いところは、予測だけでなくその予測がまちがっている可能性のある不確実性についても評価しているところである: GPの強みだ

論文の中身には立ち入らないが、内輪のワークショップで彼が楽観的にコメントしていたことを強調しておく。AIにより失業する職種はたくさんあるが、人の心や日常生活に寄り添う仕事といったカテゴリーの中に増える仕事もたくさんある。若い世代にとっては、単に親の職業と類似した職業を選ぶという愚を犯さなければ良いだけのことで、自分の興味を持ったことがらを突き詰めて楽しんで学んで行ってほしいとのことだ。我々の世代が職業選択/キャリア構築の際に採択していた規範は、メタレベルでは未来でも有効なのである。

  • もし著者があえて批判的に見るなら、論文内の予測が外れる可能性が高いのは芸術家に関する楽観部分だろうか。ただ具体的予測の一部が期待値がずれるのは確率的予測の宿命なので、これは批判ですらない。そしてこれはOsborne教授の意見ではなくて、学習データとなったアンケートに答えた人たちがそのような考えを持っているというだけである
  • 芸術的才能をもった人たちの需要は増えると答えた人が多かったが、たとえばAlgorithmic Compositionの今日の発展 (実はこれは不連続な変化ではなくてXenakisなりDavid Copeらから脈々と続いてきた活動であるし、12音技法の開拓以降はある種必然であった)を見るに、AIがある程度の創造性を提供していることを忘れてはいけない
  • この「ある程度の」創造性は、他の過去の芸術家の様式模倣という、Recurrent Neural Network / Convolutional Neural Network等が得意なものもあれば、
  • 過去の様式上今まで聴いたことがないが、生成されたものが芸術的に高い価値を認めうるという様式レベルの汎化能力を獲得するものまで幅がある
  • どちらの場合も作曲家にとっては職業上の脅威になりえる。一方で、作曲家もAIに教えてもらいながら独自の作品を創ることで、人間の創造性が拡大される可能性も高い
  • 囲碁AIの生んだ新しい戦略によって人間棋士が学びやすくなっている現象と似ている


Algorithmic Composition

さて、著者が今日議論したいことは、本当の脅威はAIそのものなのだろうか? AIが脅威とリンクしやすい今日の社会構造の方ではないか? という問いである。どちらが真実なのかという答えは著者個人は持っていない。しかし最近、後者の考えをいくつか発展させてみたので、読者諸賢のキャリア上の参考として、書き下したいと思う。

今日の要旨

  • すべては新環境に適応する速度の問題である
  • 速度をゆるめる政治的圧力をかけるか、個人が学習速度を速めるか、選ぶ必要がある
  • 一般的には、社会変化速度を出来るだけ抑えつつ、個人の学習速度を最大化するのが良い
  • ただしAIに関しては社会が低速に進むことを期待できない
  • 個人にとっての学習速度を最大化するために、「学び方について学ぼう」
  • 安心せよ。次第に学習速度が加速し、経験ある人は初学者より早く学べるようになる

予測できる人 / 早く学習する人

優れた起業家は自分の作り上げたビジネスを、他社にdisruptされる前に自分自身でdisruptできる。Amazon.comが紙の本で確固たるビジネスを作り上げた後にKindleで書籍部門の利益を少なくとも最初は容赦なく食べていったのは良い例である。真実かどうかはしらないが、Jeff Bezos氏は電子書籍の担当者にお前たちの使命は紙の書籍部署の連中を首にすることだ、とハッパをかけるという噂もある。このような自己否定的傾向は、Christensen教授による有名な「イノベーションのジレンマ」を避けるために不可欠である。

起業家レベルまでいかなくても、柔軟な思考回路を持った労働者はうまく担当事業を変えて行く。例えAIによって自らの現在のビジネスがdisruptされる日が来るとしても、その審判の日が訪れるまでにはタイムラグがある。彼らはこのラグ期間に新しい分野を学び、Nextビジネスを見つけ出す。専門領域の滑らかなシフト・拡大を測っている人たちは、時間とともに変わるビジネスフィールドのどこにおいても充実した人生を送っている。

  • 著者が、撤退オプションを残しつつも、マーケティング・広告領域からファイナンス・投資領域に移ってきたのもこれと関係がある

さらに話は起業家・労働者にすら限らない。政府レベルでこの思考が徹底している国もあるのだ。代表的なのはスウェーデンである。衰退産業と新産業との間における労働力配分最適化という課題において、スウェーデン政府は衰退産業を切り捨てることに躊躇がない。有名な例はVOLVOとSAABからの救済申請却下である。スウェーデン政府は過去に船舶事業会社を救済した結果、長期間低成長率に苦しむという痛い目にあった。過去の失敗から学んだ彼らは、ゾンビ企業を容赦なく切り捨てる方針を採用した。しかし同時に、福祉国家が長年提供してきた社会安定の維持に腐心した彼らは、代わりに包括的な職業訓練プログラムを提供し、労働者に新しい産業への適応時間を与えた。著者が見る限り、この方法論は福祉の源泉となる経済利潤の確保と社会不安の回避という二つのバランスをとる上で、現実解の中での理想に近い。

  • ムチ (厳しい市場競争) とアメ(福祉予算による訓練プログラム)のうまい組み合わせである
  • もちろん、ターゲット先の産業を間違えたらどうするんだ、職業訓練プログラムで本当に現在ではなく未来役立つスキルがつくのかという詳細点は議論がある
  • しかし自動車工が3年訓練でバイオマス発電技術者として転職したケースなどを見るに、
  • 単にレッセフェールで失業者放置 or パターナリズムでゾンビを延命するよりは実践的にworkしているとは言えるだろう

スウェーデン・パラドックス

さて、このような機動的なシフトができる起業家・労働者・国家とそうでないところとの間にはどのような差があるのだろうか。確実に忘れてはならないことは、タイムラグを利用したシフトには当然のことながら期限があるということである。この期限内のシフトを成功させるようなメソドロジーが、社会のどの意思決定階層においても必要である。ゆえにどうやったら早くシフトできるんだ? というのが真の問いであるべきだ。加えて、シフト先を間違える(起業家の場合は参入市場の選定、職業訓練の場合はターゲット産業)と巨大な損失につながるので、少なくともランダムよりはましな確度で次に伸びる場所を創る or 特定する必要があるように思える。しかしながらもう少し考えると、後者は実は優先順位としては2番目で、早いシフトさえ達成すれば細かいことは忘れてよいことに気づく。

  • 最優先である早く学習する能力が身についていれば、選定を間違えて失敗してもまたquickに別のことにtryすれば良いだけだからだ
  • また社会的な未来予測というものは、過去にてんで間違って予言ばかり提供してきた。そういった不確実性の高すぎる予測を信頼して行動するのは理にかなっていない

本当の脅威はAIではなくてhyper-connectivityかもしれない

なぜAIによる失業が、過去の技術革新による失業よりも深刻に捉えられているのか、読者諸賢はどう受け止められているだろうか。ITはあらゆる事務職員を危機に陥れた。インターネットは小売業や証券会社を危機に陥れた。こういった過去の創造的破壊と、AIによる創造的破壊は何が違うのだろうか。

一つの答えは、機械学習および強化学習 / 一般的な最適化アルゴリズムを学んでいるとはっきりわかるが、AIの適用範囲・役立つ範囲が広すぎるためである。Amazon.comが出てきたとき既存書店は彼らの存在をある程度認識していただろうが、家電量販店は書店ほどには当初脅威とは思っていなかったのではないだろうか。しかし書店で橋頭堡を作ったAmazon.comは全てのRetailerの脅威に変わった。想像していなかったところからやってきたダークホースが自らのビジネスを脅かす、というのが広範囲に使える技術がもたらす社会現象である。そして弱いAIにせよ、AGIにせよ、AIはこのような性質を広く持っている。ロンドンの変わったスタートアップ (注: Googleに買収される前のDeepMind社のことだ) がATARIのビデオゲームを自動で解くおもちゃを作っていたと思ったら、その背後にある技術がいつのまにか銀行家にとっての脅威になっていた、というようなことだ。脅威が 迫ってくるまでの時間が以前より短くなっているため、人間側の準備が間に合わなくなっているのである。

通常はローカルコミュニティに閉じているはずのクラスター化された社会ネットワーク構造において、その汎用性の高さゆえにクラスター境界を想定外の高速度で超える技術がいくつかある。機械学習に基づいたAIはその波及速度が人類の歴史において最速にあたるだろう。古いエキスパートシステムには人間が予測器を設計することに由来する顕著なボトルネックがあったが、機械学習はこのボトルネックをはるかに減らしてきた。

そしてネットワーク化された経済ではwinner-take-all効果が高まる。世界最低の調達コストを実現した一部の企業が全ての利潤を独占したりする。以前紹介したバリュー投資の分析で、グローバル企業によるwinner-take-all現象を逃れて生き残る数少ないローカル優良企業は、砂利運搬業のように物理的に重いモノを仲介していたことを思い出そう。物理的な制限のないアイデア: 例えばアルゴリズム上のイノベーションは物理的なものよりも早く普及し、その利得分布におけるheavy-tail性を強める。一部の強い人だけに富が集中してしまうのである。


千年投資の公理 ──売られ過ぎの優良企業を買う

一つの技術変化が急速に全てのノードに影響するような社会システムは、hyper-connectedネットワークであると言えるだろう。グローバリゼーション・IT化で準備されていたhyper-connectivityに対してAIという燃料が投下されたわけである。

さて、hyper-connectivityによるダークホースの脅威にいつも晒される社会では、守る側の立場は何が自分の脅威になるのかを絶えず監視していないといけない。そのためには、自分にとって馴染みのなかった新技術が自分のビジネス領域をどう変えてしまうのか、優れた仮説立案能力が必要である。AIに限らず、自分のビジネスと新技術の組み合わせによる正/負の影響を客観的に考えるだけの頭脳が必須となるが、技術的詳細に立ち入らずにこれを行うのはほとんどの人にとっては困難であろう。確実な方法は技術的詳細も含めて学ぶことである。その結果、端的にいって複数の新しい技術を早く学べない人は仕事がなくなるのである。

新技術の恩恵を広く行き渡らせつつも、hyper-connectivityに由来する脅威を緩和するにはどうすべきか。一部の人が解だと思っているが実際にはworkしないアプローチが1つあり、現実解は2種類あると著者は考えている。変化を拒絶するという態度はWorkしない。何故なら自社が新技術の採択に臆病になっていても、外国の競合他社は非常に積極的であることが大半だからである。変化を拒絶するのはその経営者の勝手だが、遠からぬうちにその企業が倒れるだけだ。では現実解の2つは何かというと、1つ目は普及速度を社会的にゆるめることで、2つ目は個人が普及速度に追いつけるよう早く学習することだ。それぞれの方法の利点や可能性については歴史が教えてくれるので、分けて議論しよう。

1. 普及速度を緩める: 過渡状態の重要性

実はhyper-connectivityはインターネットに限ったものではない。グローバリゼーションと金融自由化という過去の波はいくつもの教訓を提供しているのでそちらを紹介しよう。

社会が状態Aから状態Bに移行するとき、たとえ状態Bの方が長い目でみれば望ましいものであったとしても、AからBへの移行速度が早すぎると多くの問題が生じる。これを顕著に見せたのが1997年のアジア通貨危機やソビエト崩壊後のロシアにおける急速な民営化であった。保護主義や統制経済から自由主義市場経済への移行が最終的に望ましいとしても、急激な自由化は急にやってきてバブルを引き起こし急速に引き上げるたぐいの国際金融資本を惹きつけてしまう。マレーシアで当時のマハティール首相が採用した一見不合理な資本統制が、過渡期を上手に乗り切るという観点ではタイやインドネシアよりも賢かったことは今ならわかるだろう。だからといってマレーシアは別に外資の参入をずっと拒絶し続けているわけではないし、資本主義国としての道をきちんと歩んでいる。理想状態だけではなくそこに至るための過渡的なパスを熟考すのが大事なのだ。Amazon.comが最終的にはなんでも売るつもりであっても、最初は書籍からスタートしたのと同様である。


世界を不幸にしたグローバリズムの正体

この過渡期の設計を間違えると、長期間たった後でさえ目標未達の貧しい状況になりかねない。たとえばチリのピノチェト政権時に行われたような、南米で行われた急速な右派的自由化は大資本の支配を通じて反米的反発の拡大をもたらしてしまった。今でも南米では共産主義がworkすると信じる層が残っているようである。資本主義が、急速な格差拡大でなく多くの広くの層への恩恵につながるという実感を、少なくとも西ヨーロッパや東アジアと同レベルで南米市民が享受していたならば、ポピュリズム由来の誤った信仰は今日の南米のようには強くなかったはずである。ボリビアやベネズエラは誤った信念によって悲劇的な失敗の道を辿った。

  • 著者の個人的考えでは、亡くなったウゴ・チャベス元大統領は、少なくとも経団連のクーデターから救い出されて大統領に戻ったころはそれなりの高い理想を持っていたと思う
  • 彼は別に資本主義のシステムに詳しい経済畑の人間ではなく軍人であって、石油利権の恩恵に預かれない貧困層を救済する方法だったら何でもよかったのではないか
  • しかし制限のない自由化と隣り合わせの外国オイルメジャーとの利権闘争においては、社会主義に走る以外の選択肢は、少なくとも彼の頭脳では無理だったのであろう
  • そして絶対的な権力は絶対的に腐敗する。憲法を改正して禁止されていた3選を可能にした時点でベネズエラの暗黒未来は決まっていたようなものだ
  • そして彼の死後、同様に経済に疎いことに加えて、チャベスよりもさらに強権的で人望に劣る今のマドゥロ大統領になってはお察しの通りである


The Open Society and Its Enemies : the spell of Plato (Routledge Classics)

逆に速度やタイミングに慎重であったことで大きな恩恵がもたらされた例もある。政治の世界で著者が思い当たるのは、南アフリカ共和国のフレデリック・デクラーク元大統領である。アパルトヘイト推進側からキャリアをスタートした彼は、ある時期からアパルトヘイトの廃止に関心があったようであるが、ネルソン・マンデラへの歩み寄りというアクションを起こすためにソ連の弱体化を待った。これはマンデラ率いるANCがソ連との協力関係があることで、ANCとの和解が共産化を引き起こす恐れがあったためである。マンデラは当時はアメリカ合衆国からテロリスト認定されていた。

  • このあたりの経緯は著者も思春期に目の当たりにしたことを思い出しつつ、後日の解説をあやふやに理解しているだけである
  • もっと興味のある方は自分で調べてみていただきたい。著者にとっては、たとえばこちらの解説は包括的で学びになった。

マルタ会談からたった10日後にマンデラに接触を図ったデクラーク大統領に、著者はただひたすら感銘を受けざるを得ない。明らかにこれは周到に機が熟するのをまった結果であり、かつ条件が満たされたならば電光石火で動くべきであるという、手本の中の手本を示している。

デクラーク大統領がソ連の弱体化を待ったように、マクロな経済政策レベルでは最終状態までの遷移をわざと遅くすることで社会的な恩恵が増えることが多々ある。議論は次回とするが、待つ戦略は中国の老子の「無為」などにも見られて孫子につながっているほか、数理モデルのレベルでも過渡状態の分析は多くのインプリケーションを生む。ピノチェト大統領の背後にいたフリードマンやルーカスたちが、均衡への着目だけでなく過渡状態のダイナミクスにもっと気を使っていたならば、ピノチェトの評価も違っていたかもしれない。

一部の読者諸賢は、ここで議論した遅い行動の利点は、政治家レベルの社会的意思決定において発生していることに気づいているだろう。そしてAIの普及におけるインプリケーションを取り出そうとしたときには、過去の成功例の背後にあった前提条件を理解しなければいけない。マハティール首相やデクラーク大統領の英断は、自国だけが遅い変化を選択し他国がもっと高速な変化を選択したという短期的不利状況が、長期間の損失にはつながらなかったために成功した。デクラーク氏の場合、そもそも南アの白人社会が国際社会からの制裁を受け続ける覚悟をもっていたということで、経済ダメージはあっても政治資本が残ったという背景もある。

AIの急速な普及はグローバルな法人税値下げ競争と似ている。自分たちだけ抜け駆けして値下げするタックスヘイブン国家がいる限り、妥協してどの国家も下げて税収を圧迫せざるを得ない構造が原理的に存在する。同様に、失業による社会不安を危惧した政府が規制によってAIのより緩やかな浸透を考えたとしても、他国のもっと優れた企業がそれぞれの産業領域でAIの急速な活用により独占状態にいたるリスクを排除できない。政府がよほど愚か者でない限りは、AIの活用はビジネスパーソンのみなさん他社に負けず頑張ってくださいとしか言えないのだ。

  • それでも強引に規制をかけると、おそらくは過去に強い金融規制と不透明なコーポレート・ガバナンスを嫌って東京から香港やシンガポールに金融機関のアジア拠点が流出したのと同様の問題が、AIをフル活用した企業の間に発生するだろう
  • 政府が規制政策としてできるのは、せいぜい兵器開発や遺伝子操作にAIを用いる際の倫理上の問題について歯止めをかけることだけだ。そのような問題が大きくないもっと一般的な商取引においては、規制を入れた国の企業は単に衰退するだけであろう

そのようなわけで、遅い行動の利点を散々に紹介しつつ、AIに関してはこの利点があまり享受できそうにないという結論が得られる。それでも漸進的な変化を選択した先人たちから現代の私たちも大いに学ぶべきである。本題である個人レベルの意思決定の前にやたら前置きを置いたのは、例えばデクラーク大統領の英断から著者個人が受けた感銘を共有したかったためだ。

  • 政治レベルでの漸進性という観点では、近年の政治ではこれが顕著にまずくなっていると著者は感じている
  • サダム・フセインやムアンマル・カダフィが「独裁者だから」という理由で排除してしまった結果がどうだろうか
    • そもそもカダフィ大佐はインターポールにオサマ・ビン・ラディンの逮捕状を請求した最初の人物であった
  • ワッハーブ派の影響を受けたテロリスト達を世俗的な独裁者が押さえつけていた構図について、西側諸国の指導者たちはどの程度の事前理解があったのだろうか
  • もちろんサダム・フセインもムアンマル・カダフィも冷酷で恐ろしい独裁者だった。ただしそれが単に悪だから除去しようというのは、First-order effectしか考慮していない極めてnaïveな判断である
  • 彼らがいなくなった場合のワッハーブ派の活動というSecond-order effectを考慮していない限り、拙速な判断は大体の場合、災害につながるのである。

 


ぬりつぶされた真実

2. 「学び方を学んで」学習速度を早める

社会レベルでは遅い行動には利点があるがAIの文脈だとあまり利点を享受できそうにないという結論を一旦得た。もちろんこの結論はさらなる論考や実証で将来覆るかもしれないが、とりあえず是として進もう。個人レベルの行動、政府は一旦放っておいて私たち個人ができる行動についてはどうだろうか。こちらの結論は極めて明確で、出来るだけ早いことが望まれる。ロジックはこういうことだ: 社会ができるだけゆっくり動く一方で、個人がその変化に先回り or 十分に余裕を持って追いついていれば、過渡期につきものの混乱を最小化した上で良い移行が達成できる。個人が社会よりも早いことが大事なのである。

前回のブログではゆっくりと漸進的に研究を進めてシグナルを取り出せと書いて、これは相反するメッセージのように移るので先に明確にしておく。インプットを高速に、アウトプットを低速・品質重視で個人は動こう、というのが鍵である。他者や先行技術の理解には広範な範囲をできるだけ早くカバーする必要がある。自分の独創性を加えたオリジナルワークは、自己否定的・懐疑的な検証によって品質を最大化すること。

他者から学ぶとはどういうことだろうか。具体例を想像してもらうために、最近著者のもとに届いたヘッドハンターからのスキル要件をあげてみよう。著者はこの要件に関するスキルセットが不足している上に現職に満足していて行く気もないのだが、データサイエンスや機械学習などの今の著者のスキルに加えて、Fixed income securities (債券や優先株などの一定収益を期待する証券)に詳しい人物を探しているそうである。著者の所属するファンドでもFixed income securitiesは取引対象であるが未熟者ゆえ著者個人はこれにはまだ習熟していない。それを習得している者にはさらなる上のステージがあり得るということである。FinTechや決済ビジネスにおけるイノベーションでは、どうやって一般ユーザーの負担するコストを安くしつつ沢山の人にそれを使ってもらうかが大事であるから、確率的なアービトラージ等を通じて決済用のフロントエンドと、コスト or リスク分散のバックエンドとを出来るだけ統合した形で実現するのは大事であろう。少し拡大すれば、Machine Learning + Blockchain + Fixed Income Businessという3分野統合スキルセットの持ち主には飛躍的な将来がありそうである。

  • Fixed income securities に詳しい人は銀行やヘッジファンドにいくらでもいる
  • Blockchainの基礎技術とそれがもたらす社会変化を熱心に追っている人も最近は多い
  • 機械学習については大学か産業界で2-3年の経験がある人には一定スキルがあるだろう
  • しかし3つ全部のスキルを要求される仕事では、急に競争相手がいなくなるのである。そして3つを習熟するにあたって、あなたがフェルマーの最終定理を証明できるような天才である必要は全くない

これら3つを学ぶといっても、昭和の日本企業で推奨されていたようなゼネラリスト、全部が70-75点程度の理解である人材には声はかからないであろう。理想的には、3つの分野全てにおいて、サクセスフルなビジネスを一つ手がけたことがあるか、またはトップ国際会議 or ジャーナルに論文を通している、といったどれも90-95点という状況が望ましい。そのような人材はGeneralistではなくてVersatilistと呼ばれる。Versatilistになるのが不可能ならSpecialist+リテラシーで対処するしかなく、一つだけ120点で他が80点という状況を狙うことになる。

このような複数スキルセットを包括的に学ぼうとしたときに、長時間労働・勉強にも限界がある。一見異なる3分野間の共通性をどうやって見出し、早く学習できるかどうかが、長期的に効いてくるだろう。そのような効率的な学習法で自分個人にあった方法論を見出した人にはすごいボーナスが来るが、それ以外の人は仕事を失う創造的破壊が起きているのだろう。

効率的な学習法とは、予備校の教師が教えるような効率的勉強法よりも一段階メタレベルのアプローチを指している。あなたが三角関数という新しい概念を高校で習ったとき、あなたは三角関数について学んでいたのだろうか。それとも何か未知の概念を習得するときにどうすべきかという規範を学んでいたのだろうか。あなたは前者を学んでいたつもりだったのに、当時は冴えなかったクラスメートの一人が実は前者と後者を学んでいた可能性を考えたことはないだろうか。そしてそのクラスメートは大人になってから突然大化けした。実は、前者と後者をともに学ぶことについては、機械学習の先端に大きなヒントがある。

機械学習の最近のトレンドの一つに learning to learn アルゴリズムというものがある。Learning to learnタスクでは、どのような学習アルゴリズムが同じサンプルサイズでもより予測精度の高いモデルを生み出すかのメタルールを自動学習する。予備校教師の例で言えば、学習法Aを勧めた教師と、その学習法とは違うBを勧めた教師と、どちらのアドバイスに従うべきかを、学習サンプルを収集して判別するのである。

人間が新スキルを得るための学習法というものは、その学習法自体の良し悪しを統計的に比較検討できるはずである。例えば、Blockchianのど素人である著者がこの分野を勉強しようと思ったとき、次の複数のアプローチのどれが有効だろうか。

  1. 新分野の中で興味をもった論文からはじめてその参考文献を追って行く
  2. 新分野の代表テキストを最初から最後まで読む and/or 課題をやる
  3. 新分野において信頼できる専門家の書いた一般書を読み、その中の参考文献を追う

この3つのどれがより著者にとって有効であるか調べるためには、理想的には、Randomised Controlled Trial (RCT)を行う必要がある。RCTする場合は、著者と似たようなアカデミックバックグラウンド and 実務経験を持った人をたくさん集めてきて、方法1, 2, 3をランダムに割り当て、例えば1年間勉強を続けてもらう。1年後にスキルテストや実在課題を解かせてみて、1-3のどの集団が優れていたか比較するのである。古典的A/B/Cテストだ。

しかしこのようなRCTは実際には実行不可能である。厳密に同じバックグラウンドを持った人をたくさん集めるのは不可能だし、各人に貴重な時間を消費させて選択を強制することもできない。まぁ因果推論関係の統計学を使えば自然選択状況からある程度の推定は可能であるが。

なので読者諸賢には、このような選択的トライアルを自分個人で一人でも実践していくことを勧める。著者の体験例を出してみよう。著者がゲーム理論やマルチエージェント・システムについて学んだ際には1の論文スタート・アプローチを取った。著者が作曲における和声法・対位法・管弦楽法を学んだ際は2のテキスト網羅アプローチを取った。そして著者が行動経済学を学んだ際は3の一般書スタートアプローチをとった。

  • 一応白状しておこう。和声と管弦楽法は定めたテキストをきちんと全てこなしたが、対位法は未完であり、こちらは今後きちんと補間していかないといけない。

Tonal Harmony

Materials and Techniques of 20th Century Music

Counterpoint: The Polyphonic Vocal Style of the Sixteenth Century (Dover Books on Music)

The Study of Orchestration

Agent-Based and Individual-Based Modeling: A Practical Introduction
Generative Social Science: Studies in Agent-Based Computational Modeling (Princeton Studies in Complexity)

その結果、著者にとって新分野学習において有効だと結論されたのは以下のシーケンスを重視した方法論である。1-3のどれかを選べ、ではなかったのだ。このシーケンスが採用された理由は、それぞれの学習法の利点と欠点を身をもって味わったからである。

  • まずはその分野の一般書を読みReferenceをたどる
  • 続いて興味をもった論文をいくつか読み漁り、すでに自分が知っている数学的知識とのアナロジーから学習をはかる
  • 最後に、当該分野のテキストを最初から最後までやって網羅的に全体像を把握する

1-3のどの方法にも利点と欠点がある。論文drivenのアプローチは興味を追っているので効率が良い一方で、カバレージにかけ教養の欠落を招く。Exploration-exploitation trade-offのある状況においてexploitationしすぎるのだ。一方でテキストdrivenのアプローチは、特に和声課題のときに感じたことであるが、いつになったら一人前になれそうかゴールまでの感覚がつかみにくく、動機付けが弱くなる。その結果、平均的な学習速度が遅くなる。とはいえ、このカバレージはいずれは必須である。なので、効率的に取れる60%の範囲をまずは論文drivenで学び、その後にテキストで網羅することが良いと結論した。とはいえ最初のとっかかりが何もない状態で論文をあさるのもまた非効率なので、好きな読書の延長としてまずは一般書からスタートする、という組み合わせに落ち着いたわけである。

  • 著者の友人の複数のPhDホルダーを見ても、カバレージをきちんとしているかが学位保持者とそうでない人の一番の差で、それが長期的に効くということはお伝えしておく

著者の採択したアプローチが合致する方はデータサイエンティスト以外にもたくさんいると思われる。しかしながら、これはあくまで著者個人にとっての準最適解だ。読者諸賢個人に対してあうかどうかの精査は大事である。新分野を開拓するときに学習法を意図的に変えてみて、自分の中で学習法を比較できるようなサンプルを創り出すことはお勧めである。

自己サンプルだけではおそらく比較には不十分であろう。そこでサンプルサイズの増大 or 信頼できる事前分布の設定のために、身の回りの人の学習結果もこっそり利用すると良いかもしれない。他人の成功と失敗から学ぶのである (優れたバリュー投資家がよく口にすることだ)。あなたの身の回りでは、環境変化への適応が早い人と遅い人がいてそれぞれ異なった戦略を採用しているはずだ。彼らを観察して良い戦略の事前分布を作ろう。事前分布といっているのは、これは人間一般にとって良いと仮説されているだけで、あなた個人は他人と大きく違っているかもしれないためである。多くの他人による事前分布と、自分自身の経験によるサンプルのmixtureで推定するのは、ベイズ推定である。ベイズ推定のアナロジーで汎化されたリアルlearning to learnは、あなたのキャリアを大きく広げて行くだろう。

機械学習に限らず、数理的な最適化アルゴリズムというのは何も仕事のデータだけに使う道理はないのである。そこから学べる規範を自分の人生そのものに役立ててみてはどうだろうか。リアルな日常生活においてベイズ推定 and/or 強化学習しよう。

長時間労働は勤勉革命のせいだけではなく、不確実性回避のせいかもしれない

さて、個人が時間を浪費せず新しいスキルを学ぶことの重要性について説いているわけであるが、多くの人はなかなかこれが出来ない。その理由として著者が想像しているのは、新しい分野を学ぶのに想定外に長い時間がかかってしまったらどうしよう or いつまでたっても理解できなかったらどうしようという恐れではないかと思っている。(新たに得たスキルの利得) マイナス (所用時間による機会損失) という打算において、後者の不確実性に対するリスク回避を重視した意思決定をしてしまっているのである。

このリスク回避現象は、なぜ長時間労働が減らないかの理由の一つになり得る。もちろん長時間労働の主たる要因は江戸時代の勤勉革命 (Industrious Revolution)から、顧客による無償労働の脅し(株主によるコーポレート・ガバナンス不足の結果としてのpricing powerの弱い事業から経営者が撤退しないことが本質的要因)まで種々ある。しかし副次要因としてはこのリスク回避性も作用していると思う。現場レベルで、例えば次のようなことがおきるのだ。

  • 財務担当者がExcelで作業をしているが、いくつかの数値入力部分は毎回同じステップであるので自動化して他の仕事に集中するか早く退社したい
  • しかし彼はプログラミングに馴染みがないので、過去の.xls or .xlsxファイルをコピー&Editする以上の作業時間短縮が現在のスキルではできない
  • 今回の作業を完遂するにあたり彼は二つの選択肢から選ぶ必要がある
    • 1. 今までと同様のやり方をする。所用時間は3週間で確実にこの時間で終わる
    • 2. pythonまたはVBAを追加で学び、プログラムの自動出力を利用する。他に財務で新たにプログラミングを学んだ人の経験から推定するに、学ぶのに期待値では10日かかり、その後最後に残る手作業は4日で終わるためトータルで2週間である
    • 2.は期待値としては1.よりも早く終わるが、学ぶのに想定外の苦労があって、10日かかる学習時間が20日か30日になってしまうかもしれない
  • このような状況において、彼はハードデッドラインを過ぎてしまうリスクが怖いので選択肢2を選ぶことができない。もし2を成功裏に今回終えれば、今回の短縮に加えて来期の同一作業における所用時間は劇的に減るにも関わらず

同じ財務担当の中でも所用学習時間にはバラツキがあることが観測できるだろう。加えて、そのようにプログラミングを習得した他の同僚がいない場合には、サンプルサイズの不足による不確実性(統計学ではestimation errorとかconfidence interval or credible intervalのことをさす)が増大する。このリスク+不確実性を短期的に回避し続ける結果、彼は長期的にいつまでたっても長時間労働から逃れられないのである。


退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング

このようなトラップは、締切ドリブンのカルチャーが緩和されれば回避できる。経営者の方は社員のコントロールにおいて参考にしてみて欲しい。一度のチャレンジでは想定外に多くの時間がかかって一時的な生産性低下を被るかもしれないが、明らかに最初の段階で学習に取り掛かる方が累積コストは低い / 累積リターンは高い。実は企業がR&Dに投資する際の基本を、ここでは単にExcel処理という小さな例に当てはめて議論しているだけである。

結局のところ、キャリア構築・スキル習得においても、短期のリスクは不可避であると腹をくくって長期リターンを最大化するだけなのだ。世界的に見て、社会人が会社を辞めて大学院で学びなおしたりする際の正当性も、そのような短期損失を覚悟したリスクテイクから来る。

学習速度は逓増する

不確実性に惑わされて二の足を踏んできた人たちに最後にメッセージしておきたい。安心して欲しい。本当にゼロから学習を始めて恐ろしく時間を無駄にするケースはまれである。そして著者が今までの体験から自信を持って言えることとして、今までの蓄積が多い人ほど、新しい概念の習得も早まる。学習の複利効果とでも言おう。直感的には、n 種類の見かけ上異なる学問分野があったとしても、それら全てを学ぶのにかかる時間は log n くらいで済むだろう。見かけのサンプルサイズや次元に反して、実効次元やクラスター数はもっと小さいのだ。その根拠は、先人のたちの知恵のおかげで異なる専門領域も元をたどればシンプルで強力なファンダメンタルズから成り立っていることが多いためである。

  • 著者の場合、有名な「藝大和声」の課題をやっている間は、このよくできてはいるが疲れる禁則を体に無理やり叩き込むのが非効率に感じられて仕方なかった
  • しかし本業の機械学習研究においてbias-variance trade-offの扱いに関して理解が進み、五度圏による分析法の習得など他の知識が混じってきた段階にいたると、よりメタレベルでの法則理解が得られたため、課題の遂行が容易になったのである
    • それでも初学者には先に挙げたStefan Kostka氏のテキストの方を勧めるが

和声―理論と実習 (1)

和声―理論と実習 (2)

和声―理論と実習 (3)

見かけ上の学問領域の広さに圧倒されて、自分の既存知識範囲に固執し過ぎてしまう傾向は、若い人が資産運用において複利効果を軽視してしまうことと似ている。一回一回はリスクある意思決定であっても、長期的には本来あるべきcapital growth rateに近づいて行くのだ。複利効果を理解しない人は、期待値 ➗ ボラティリティのS/N比を上げる代わりに単にボラティリティの高い一か八かのギャンブルをやってしまう傾向がある。しかし若い人は残された時間がもっとも長く、長期資産運用が本当は向いた立場にいる。彼らは期待値としてのcapital growth rateを上げるような、複利効果のあるキャリア開発に全力を注ぐのが最適である。

若い人だけでなく、40歳や50歳の人にとってもこれからの社会ではimplicationが似てくる。平均余命が伸びていることと、年金の支給開始年齢が上がることでシニアも先々のキャリアは想像以上に長いからだ。

残り期間が長い前提においては、今更新しいことを学ぶなんて難しい、という嘆きこそが最大の敵なのである。今回の投稿は俗に言う「文系的」知識を総動員しつつ、著者の専門から言えることを定性的に結びつけて論じてみた。読者諸賢のキャリア上の触媒になれば幸いである。

Reference

広告

Integrityと資本配分と高ROCからの再投資

先日のBerkshire Hathaway Inc. Annual Shareholder Meeting出席に関してもう少し話を続ける。著者はOmahaへの渡航時には Value Investor Conference (VIC) 及び併催されるSummitに出席している。昨年はPhilanthropy Summit, 今年はCorporate Values Summitが開催された。VIC本会議が投資手法や経済環境そのものについて議論することが多いのに対して、Summitは投資における価値観 (values) を議論する。技術者の人たちには価値観を議論するカンファレンスというのは馴染みが薄いかもしれない。しかし実は技術よりも価値観と哲学こそが不確実性の高い時代を生きていくにあたって最も大事なものだと、著者は自信を持って伝えたい。本稿では価値観が投資基準にどう影響し、そしてビジネス上の意思決定にどうつながるのかについて議題を提供したい。

Robert P. Milesへの感謝

VICに加えて、2017年の著者はGenius of Warren Buffett  (GOB)というバリュー投資家のためのExecutive MBAのクラスに出席した。VIC, GOB共にインストラクターの Bob Miles (Robert P. Miles) が作り上げてきたプログラムである。

彼と話していると、そしてプログラムに出席していると、Bobのintegrityの高さが伝わってくる。WarrenやCharlieのvaluesがそのまま彼にも共有されていることがよくわかる。VICやGOBの講師はBobによって本当に注意深く選定されており、講演者と受講者のいずれからも信頼されている。米国では彼は著名人なので宣伝目的で近づいてくるファンドマネジャーが大量にいるのだが、彼はそういった人々を避け、正しい価値観の元で投資が続けられるように受講生や出席者を助けてくれる。

Bobは作家として認知されていて、彼の著者の一部は日本語にも翻訳されている。The Warren Buffett CEOの邦訳を紹介しておくが、Warren Buffet Wealthもお勧めである。

最高経営責任者バフェット~あなたも「世界最高のボス」になれる (ウィザードブックシリーズ)

Warren Buffett Wealth: Principles and Practical Methods Used by the World’s Greatest Investor

著者はGOBコースの日本人修了生第1号だそうであるが、第2号以降が読者の中から現れることを願っている。たった3日間の受講で、日本の国立大学授業料の半年分くらいの費用がかかってしまうのだが、この講座で身につけた倫理観と規律はこの後の人生においてずっとあなたを助けてくれると思う。リターンを追求する投資だけではなく、投資による資本配分がリアルのビジネスにどう影響するのか、なぜintegrityがmatterするのかがよく分かるのだ。

ここではGOBおよびVICに来てくれた講演者の中で特に印象的だった2人をピックアップしたい。1人目はNebraska Furniture Mart (NFM)の前CEOであるBob Battである。2人目はInvesting Between the Linesを出版したL.J. Rittenhouseである。彼ら以外にもWarrenの長女であるSusie BuffettやNational Indemnity Company (Berkshire傘下で大変な利益をあげている保険会社である)のCEOであるDonald F. Wursterといった豪華スピーカーと身近に話すことができて大変貴重な時間であった。

Integrityと再投資との関係

Bob Battは慎重さとリテール・ビジネスにおけるあらゆる知見、そして何より次世代に対する思いやりを持った、尊敬できる老人の代表みたいな人である。バフェットの専門をCapital AllocationからRetail Businessに変えると全てそのまま彼になるかのようだった。彼はcandorのある人物で、オンラインのe-コマースや消費にお金を使わないミレニアル世代など、自分たちのビジネスに現在吹いている逆風についても率直に語った。NFMはMrs. Bとして知られるRose Blumkinが創業した。Bobは彼の家系がMinsk (今はベラルーシ、当時はロシア)からどうアメリカに渡って来たのか話してくれた。

NFMは巨大な一店舗にあらゆる家具とアプライアンスが置いてあるblock and mortal storeである。実際のところAshley (たまたまであるが著者の自宅の近所に日本支店があって知っている) など質の高い家具がかなり安く買えるので、インテリア好きの人はアメリカ中西部に行くチャンスがあったらぜひ訪問してみることをお勧めする。Bob自身はNFMからは引退して今は子供たちを助ける慈善事業に全力を注いでいる。リテール・ビジネスにおけるインサイトは慈善事業の経営や政府の運営など公益の追及にもとても役立つそうだ。

NFMや同じくBerkshire傘下で宝飾品の販売を手がけているBorsheimsなどは、他のリテールビジネスとは異なった性質を持っている。店舗数がものすごく少なくて基本的にはsingle-storeで全てを提供するのだ(注: NFMは全米で4つしか店舗がなく、そのいずれも巨大である)。多くのbrick & mortal retail businessでは、小さな店舗をたくさん建設するfranchiseの形式を取る。NFMやBorsheimsは逆である。しかし、たった1店舗にものすごい在庫があってなかなか買い物が楽しく、しかも価格も競合より安い。日本で言うと、東急ハンズが定価販売ではなく量販店と同じ値段で売っているようなイメージだろうか。

このsingle-store policyはWarren Buffettの注意深いcapital allocation能力によってもたらされたものである。彼は合計売上高を増やすのではなく利益率を増やすことを傘下企業に強く求めるそうだ。もし店舗数の増大がコストの増大か顧客の低価格志向によるマージン低下につながるようであれば、Warrenは傘下CEOたちにむしろビジネスの拡大を避けさせるのである。

NFMでは比較的安いNebraska州での流通コストや人件費を武器に低コスト優位性を維持している。販売価格も安いがコストがそれよりさらに安く高い利益率が維持される。他者がこれを真似ようとしても同レベルの低コストが実現できないので、高価格販売して顧客からそっぽを向かれるか無理して値下げして破綻するかのいずれかになる(日本の量販店は後者の道に向かっている印象がある)。Bobは”We are conservative.”と率直に語っていた。政治の世界でのconservativeは色々議論があるが、このビジネスに関するconservativeは著者には心地よく聞こえた。低コストを武器にするのはAmazonのe-Commerce部門も同様だろう。自称高付加価値ビジネスは競合が参入するとあっさりと値下げの妥協を強いられるが、流通網の強さによる低コスト優位性は競合が真似できないのである。Amazonの場合は直近の利益率を犠牲にして世界中で低コスト状態を実現するべく拡大を続けているが、NFMは高利益率を維持する代わりにNebraskaから外に出ないのである。そして全米中から消費者をOmahaに連れてくる

Growthとかbig businessといった言葉に踊らされている人にはNFMのpolicyは奇妙に映るかもしれない。しかし資本の効率性を最大化する観点からはこのアプローチが正しいのであり、しかもこのやり方だと雇用を最大限守ることができる。どういうことだろうか。

Buffettは複数のビジネス領域に極めて通じた投資家である。彼は同じ1ドルを追加投資するならどこに投じたら良いのかが的確にわかる。NFMやBorsheimsの店舗をどこかの州にもう一つ作るのと、それとも傘下の保険会社の拡大に当てるのと、リターンがどちらが大きいのか判断できるのである。彼はdiminishing returnによって利益率がさちってしまったビジネス領域にお金を放り込む愚を犯さない。そしてNFMは店舗を増やさずとも、Omahaにとどまっている限り儲けた利益を翌年の運営のために再投資して、高い利益率を保ったまま安定的に売上も拡大することができる

テストステロンに心を支配された愚かな経営者は店舗を増やせばビジネスが短期間で飛躍的に増大して利益もうなぎ登りかもしれないと楽観サイドだけを考え、短期間で急激な拡大を狙うが失敗して多額の負債を背負う。従業員も急拡大して大量に雇ったと思ったら急に大量に解雇する(人の人生をなんだと思っているのだ)。NFMのやり方だと、circle of competenceを守ることで持続的雇用を提供できる。もちろん絶対的な雇用人数が大きく増えるわけではないが、やっと仕事が見つかったと思って働き始めたら急に解雇されて今までの時間はなんだったのだと、せっかく働きに来てくれる従業員を途方にくれさせるような事態を賢明にも避けているわけだ。実際、Berkshireではlay-offをしないことを大事にしているそうだ。昔のDempsterの件ではBuffettは誤りを犯したと考えているらしい。

そしてこのアプローチは投資としても非常に成功する。高い利益率を維持して再投資を続けることで、長い目で見ると複利によって資本が膨れ上がっていくのである。ある時+50%で増えたと思ったら翌年から+3%しか増えなくなってしまったなどというビジネスよりも、毎年+15%がコンスタントに続き際限なく増えていくようなビジネスの方が望ましい。グロース株などと呼ばれている銘柄の一部は前者のような一発あたり市場しか取れなかったりするし、一発狙いの短期思考の人は、利益の再投資によって膨れ上がる複利を過少評価する傾向がある。アインシュタインも人間が複利の効果に気づかないことについて言及しているようだ。ぜひ後者のビジネスを探してみて欲しい。

Integrityとデータ解析

実はバリュー投資家のコミュニティでは最近、quality of investmentsが成功の鍵だと言う意見が強くなっている。財務書評から読める定量的ファンダメンタルズも大事だが(これが分かるだけでロクでもない会社をお金を放り込む愚は避けることができる)、それ以上にCEOや会社の人格・価値観こそがリターンを決めるのだという見方だ。

L.J. Rittenhouseはcandorをshareholder letterやannual reportsのテキストから分析する方法を見出してきた。良いニュースだけでなく悪いニュースも率直に伝える正直さ・自分の誤り認める態度があるとか、株主への手紙で英作文に時間をかけて丁寧に最適な単語を選ぶような経営者のいる会社は成功確率が高いのである。経済と倫理との関係を大切にしている人にとっては朗報ではないか。この世界は技術者の人にとっても面白いかもしれない。彼女らのアプローチを参考に、自然言語処理を用いて株式のリターンを予測しても良いわけだ。著者も以下の書にサインをもらった。

Investing Between the Lines: How to Make Smarter Decisions By Decoding CEO Communications

Quality of investmentsの世界には心理学者も研究フィールドを広げている。昨年のVICにはFred Kielが以下の書の紹介も含めて来ていた。Rittenhouseに興味を持たれた方はFred Kielも合わせて追いかけると良いことがあるかもしれない。

Return on Character: The Real Reason Leaders and Their Companies Win

合理化途中の過渡状態と不合理を受け入れた定常状態

母校の集中講義で機械学習とゲーム理論の数理的類似性に関して話してきた。大学からの依頼で行ったものであるが、その要請はかつての自分と同様に社会人博士課程に通う学生への助言である。在学中の研究とその後の展開や、研究成果をどう実ビジネスや仕事に生かしていくかを体験談として話して欲しいというものだった。博士取得後に深めた知見の方が在学中の成果よりも大きいと著者は考えているので、学生時代の話は触り程度にして、その後の研究トピックの広がり方・掘り下げ方について、転職後に加わった視点も交えて紹介した。以下はその説明資料である。OpenOffice.org ImpressとLaTeX beamerが混在しているのは全てをbeamerで準備する時間がなかったことによる、デザイン上の妥協である。

提供した視点の中で、その拡張に将来性があると2016年時点で著者が考えているのは以下に列挙した両者の対応である。特に、機械学習側の関数近似テクニックや緻密な確率的モデリングを行動ゲーム理論に持ち込むことで、人間同士が相互作用する社会環境 (人間系) における意思決定を、もっと数値的根拠が確かな状況で行えるものと期待している。

  • 正則化のない最尤推定はナッシュ均衡の計算に類似しており、
  • 事前分布を用いるベイズ推定やJames-Steinの縮小推定は限定合理性を扱う行動ゲーム理論における、Quantal Response Equilibrium (QRE)の計算に似ている
  • 明示的な正則化項を追加する代わりに最尤推定の最適化ステップを途中で中断するアプローチであるearly stoppingはCognitive Hierarchy Theoryと似ており、これも行動ゲーム理論で使われるテクニックである

Google DeepMindはAlphaGoでDeep Reinforcement Learning (深層強化学習)を用いたが、Deep Belief Learning (深層信念学習)という社会科学技術がイノベーションを起こす、というのが著者の大胆な予想である。しかしこれは当たるも八卦当たらぬも八卦の話なので、もう少しsolidな上記メッセージに戻ると、用いた資料で最も重要な一枚は次のスライドだろう。

ml-vs-gt

 

与えられた特定のゲームにおける実現シナリオの候補として、ナッシュ均衡はその定義は厳密ではあるが、実社会でのゲームにおいて実際に発生するシナリオからはしばしば乖離した予測を示す。最尤推定が学習データという狭いデータセットに対しては最大の予測能力を示しても、テストデータを持ってくるとそうはならない点と似てるとは感じないだろうか。

一方、ベイズ推定は事前分布という固定点を導入し、そちらにshrink(縮小)させることで、学習データに対する説明能力を少し妥協する。しかしこの小さな妥協はテストデータに対する予測能力を大きく向上させる。QREも同様で、他のプレイヤーの合理性に確信が持てない状況で、不確実性を撹乱項として明示的に確率モデル化することで、より実社会の集団的意思決定結果に近い予測結果を返してくれる。ベイズ推定もQREも、データやゲームに依存しない固有の確率モデルを入れることで汎化能力を上げる、という思想が共通している。

加えて、実用上は、固定点への縮小戦略ないしアルゴリズムは厳密なベイズ推定解でなくても良い。要は、事前分布の中心に相当する固定点があって、そこに少し近づける方法論であれば何でもよく、その一つがDeep Learningでよく使われるEarly Stoppingである。Early Stoppingは、複雑なゲームの均衡を数値的に計算する場合に使われる Belief Learning (信念学習) を途中で打ち止めにする方法と類似しており、Cognitive Hierarchy Theoryはこの打ち止め自体を確率モデル化したものである。

機械学習研究者コミュニティの中には、統計学だけでなく認知科学の研究も行っており、行動経済学的な現象の発生メカニズムを数理モデル化している人たちがいる。著者もその端くれであると自負している。昨年、著名な国際会議のNeural Information Processing Systems (NIPS)に出席した際には、パネルディスカッションにおいてBayesian Nonparametricsの大家の教授が同様の見方を他の認知科学研究者から聞いたと言っていた。この教授が誰であるか業界人にはバレバレであるが、著者の記憶が間違っている可能性もある。後で「私はそんなことは言ってない」というクレームが発生しても責任は持てないので名前は伏せることにしておく。

講義は機械学習と行動ゲーム理論の接続に限らず、与太話も含めていろいろ話してみた。科学的根拠の薄い仮説であることを断った上で、スライドの最後のセクションには私見をいろいろ載せている。一方で全ての意見が無根拠というわけでもない。例えば、リスクは避けろ、不確実性はテイクしろというメッセージは i) 偉大なバリュー投資家たちのコアとなる考え方で、ii) 多腕バンディット問題におけるexplorationのgainがどういうときに最大になるか考えた上で 持っている意見である。すぐれた起業家や研究者がリスクテイカーだというのはおそらく嘘だ。彼らは不確実性をテイクしているのであって、避けられるリスクは極力全て避けている。製鉄ビジネスを始めるときにいきなり自力で始めるのではなく破綻した製鉄所を安く買い取って始める、とかね。

これから博士課程に通おうと思っている人や、社会人博士における研究テーマの選定で迷いがある人は参考にしていただければ幸いであるし、個人的な質問があれば twitter account @rikija に連絡くだされば話せる範囲でお答えします。

集合知の質: 1ドル1票か1人1票かあるいは? (2)

衆愚制や民主主義の危機が叫ばれる中で、単純な均等投票以外の集合知が民主主義陣営の強力なサポーターになってくれるかもしれない。集合知の質: 1ドル1票か1人1票かあるいは? (1) で、集合的意思決定手法の一つである予測市場について紹介し、その光と闇について論じた。予測市場の株価は予測対象に対する知見が高い人の予測に高いウェイトを振った加重平均値であり、これを予測値とした意思決定は低いバイアスを享受できる。実際にお金をかけさせることで真剣な予測値を作り出すことができる点、加えて人工知能・統計学アプローチと違って既存のビッグデータがなくても意思決定できる点は、プラットフォームとしてのアドバンテージとなる。しかし最近はUKのEU離脱をバイナリー値としては予測し損ねたという失敗例もある。最終株価が単純なアンケート or 選挙に比べて未来を正確に予想しているかどうかには、依然として議論があるだろう点を前回議論した。


普通の人たちを予言者に変える 「予測市場」という新戦略

今日は予測市場の最終株価以外の産物を役に立てられないか考えてみる。最終株価よりもすぐれた予測値を、統計学もしくは金融工学を駆使することで得られないだろうか。具体的には、予測市場が産み出した株価の時系列データと出来高等の個々の取引記録を利用することを想定する。議論のスコープからは今回は外すけども、予測市場株価を原資産に見立てたデリバティブ: 先物, オプションを作ったら更に予測精度が上がるかもしれない。

予測市場及びその派生市場で得られた多くの証券データは、それらを統計的アルゴリズムに入力することで最終株価よりも優れた予測値を生み出す可能性がある。また予測精度自体は同じであったとしても、過渡的なデータが予測対象に関するインサイトを提供する場合があり、その情報自体が市場参加者、つまり一般市民の政治的意思決定能力を向上する可能性もあるのだ。

過渡的な情報に価値があるという見解は、著者が効率市場仮説 (Efficient Market Hypothesis; EMH)を支持していないことに由来する。EMHが完全に成り立つなら最終株価以外の指標は役に立たない。EMHは市場が常に定常状態(=均衡)にいる、もしくは一瞬で定常状態に遷移すると仮定することでほとんどのトレーダーがリターンを取れない、と主張する。EMHの反証は統計的裁定機会の存在を示すことによって行われることが多いが、少なくとも短期トレードではこの裁定機会を見つける困難さゆえにEMHが想像以上に妥当に思えてしまうトレーダーも多い。ファンダメンタルズに基づいた中長期投資ではそれほど反証は難しくないのだが。

短期トレードが難しいとしてもEMHが完全には成り立っていないと言える根拠は、そのおかしな仮定にある。過渡状態と定常状態(=均衡)は明確に区別して議論しなければいけない。またこれらを明示的に区別することで、EMHが成り立たないなら株価はどうやって動くのかある程度モデルを立てることができる。モデルの設計と検証を立てるのはアカデミックな成果を争う研究領域となるのでブログでは避けることとしつつ、今回は過渡状態の方が定常状態よりも重要であるケースの一つを紹介したい。この背景を経て、予測市場の時系列データを残していくことが民主主義社会における大きな遺産になり得る可能性に気づいてもらえれば幸いである。

今回、過渡状態と定常状態の違いについて導入した上で、次回はどのような予測市場の過渡状態を残したいか、著者なりの政治的見解を書いてみようかと思う。今の所の素案にあるのは、「ある政治家が政策Xを実現するか否か」に賭ける予測市場であるが、もっと良いアイデアがあるだろうと思う。

定常状態(=均衡)はしばしば非現実的に見える

突然ではあるが p-美人投票 (p-beauty contest) というゲームを紹介したい。ここではp=2/3のケースを取り上げる。以下のルールのゲームで、各プレイヤーはどのような選択をするだろうか?

  • n (\geq 3)人いるプレイヤーが0以上100以上の整数を一つ、同時に選択する
  • 全プレイヤーの数値の平均値の2/3倍に最も近かったプレイヤーが優勝する

特に難しい点のない単純なルールであるが、図で例時すると図1のとおりである。この例では#1, #2, #3の3人のプレイヤーがそれぞれ35, 15, 22 と宣言し、平均の2/3倍である16に最も近かった#2が優勝した。あなたがプレイヤーの一人だとして、どの数字を選ぶか想像してほしい。平均値は他のプレイヤーの数字によって変わるわけだから、あなたはライバルを出し抜かなければいけない。

pBeautyContest

図1. (2/3)-beauty contestにおける意思決定と結果例

十分に頭の中で想像してもらえただろうか。そうであれば次に進もう。このゲームにはナッシュ均衡が一つだけある。それは全員が0を選択するというものである。そのロジックは次の通りである。

  • ゲームのルールを全くわかっていないナイーブなプレイヤー (これを0-step playerと呼ぼう)を想定すると彼らは0から100をランダムに選ぶのでその期待値は50である
  • 0-step playerを倒すことを想定している1-step playerは50 \times 2/3 = 33.33\ldots のため 33を選ぶだろう。1-step playerは0-step playerよりちょっとだけ先読みしている
  • 1-step playerを更に倒すことを想定している2-step playerは33 \times 2/3 = 22より22を選ぶだろう

こうしてk-step playerを倒す (k+1)-step playerのことを考えていき、全てのプレイヤーがお互いが完全合理的であると予想して無限遠まで読み切ると全員が0を選択することになる。簡単のためにk-step目までの期待値による説明を書いたが、期待値でなく他の代表値を使ったり、0-step, 1-step, …, k-step playersがそれぞれいる状況で(k+1)-step playerの振る舞いを考えても結論は同じである。2/3をどんどんかけていく等比級数の極限である0が均衡となる。先読みばかりしているエリートの選択というのはお互いに似てくるわけだ。またそのような共通の思考回路を暗黙に持つことで無難な幕引きを図るのがエリートの特徴とも言えるし、それこそが彼らがつまらない人物に見える主因かもしれない。

「今」は定常状態 or 過渡状態?

さて、ナッシュ均衡が0だということはわかった。しかしながら、あなたは本当に全員が0を選択すると思うだろうか? あなた個人が0を選択する可能性は十分著者も予見しているが、あなた以外の全員が0を選ぶとあなたが考えているとは、著者は思わない。実際のところ、この「全員が0」という均衡からは、ちょっとした撹乱によって容易に乖離しうる。例えば、

  1. もし他のプレイヤーがゲームの本質に気付いておらず、0よりずっと大きい数字を選択したら?
  2. もしプレイヤーの一人が、自分が負けてもいいのでエリート連中にダメージを与えてやろうと考えたら?

1.はプレーヤーの知性に限界を設けたケースで、2.はプレーヤーは賢いがわざと愚かに振る舞うケースである。理知的な大国間の交渉に比べて、テロリストやヒステリックな人物との交渉はより難しい。現実世界でのそのような読みの難しさをp-beauty contestは簡潔に表現している。

ナッシュ均衡の非現実性は、i) すべての人が一様に無限遠を見通している非現実的仮定や、ii) 確率的な撹乱を無視した決定論的思考 に由来する。実際のところ、[1][2]に掲載された実際の選択は表1の通りである。ゲーム理論家であっても彼らはこのような撹乱を想定しているのであって、0は選択していない。

  • ここでは[2]に掲載された簡略化された表を抜粋している。より広範な調査は[1]に掲載されている。

表1. (2/3)-beauty contestで実際の人間が選んだ平均値

グループ名 n: プレーヤー数
(グループから抽出)
グループの合計人数 選択された平均値
Caltech Board 73 73 49.4
80 year olds 33 33 37.0
High School Students 20-32 52 32.5
Economics PhDs 16 16 27.4
Portfolio Managers 26 26 24.3
Caltech Students 3 24 21.5
Game Theorists 27-54 136 19.1

表1で各グループの性質と選択結果を眺めてみるのはなかなか面白い。カリフォルニア工科大学のボードのお偉いさんたちはほとんどナイーブなプレーヤーのように振舞っていて、学生さんよりもずいぶん値が高い。お年を召されて真面目に考えなくなってしまったのだろうか? などと不謹慎な想像だって出来る – 実際のところ80歳の人たちの平均値も結構高い。さらに学びたい方のために補足: p-beauty contestはリチャード・セイラーの最新刊でも紹介されている。セイラー教授のキャリアの築き方も含めて (学生からの人気を維持するために137点満点のテストを作った話とか) 面白い一冊なので興味のある方はどうぞ。


行動経済学の逆襲 (早川書房)

表1で示されたように、ゲームの中に完全合理的でないプレイヤーが混じっている場合、たとえあなたがとても合理的であったとしても考え直す必要がある。そのような状況における予測値を定量的に与えてくれる方法論は認知階層理論 (Cognitive Hierarchy Theory; CHT) [1] と呼ばれている。各プレイヤーは自分は (k+1)-stepまで読めるが他人は最大でもk-stepまでしか読めないと考えている自信過剰家であり、0-step, 1-step, …, k-step playerの人口比を予想して選択を行っているというモデルを導入するのである。そして kの値と人口比分布を実データから推定することで高い予測値を得ようとするところが、完全合理性一本やりのナッシュ均衡と違っているわけだ。

参考: 機械学習アルゴリズムと行動ゲーム理論との関係

(この項目は参考文献を探している研究者向けである)

さらに撹乱を加えてより予測を精確にする場合、ナッシュ均衡を確率モデル的に一般化した質的応答均衡 (Quantal Response Equilibrium; QRE)を数値計算することになる。CHTが過渡状態で計算を止めるearly stoppingを行うのに対して、QREは確率を入れた上で無限遠まで計算する。しかしどちらもナッシュ均衡よりも初期状態 or 一様分布のような固定点に近づける 正則化として働く点は共通している。その具体論に立ち入るのは予測市場について議論する本題から外れるので割愛する。

参考書としては以下が優れているほか、そのうち機械学習との接点について別エントリーで紹介しようと思うので興味ある人は楽しみにしててほしい。ナッシュ均衡の計算は最尤推定と類似しており、QREの計算は明示的に事前分布を入れたMAP推定に近い。CHTはearly stoppingすることによって結果的に初期状態に近い予測値を出すため、近年のdeep learningで使われているearly stopping によるregularization (初期値に近づける)と類似している。


行動ゲーム理論入門

過渡株価を見ながら定常株価を予測する

p-beauty contestの(狭い)理論と現実との関係から一般化したいstatementは単純である。無限遠まで計算した定常状態よりも、過渡状態の方が現実に近い場合が存在する。あるいは撹乱を入れながら計算した「アニーリングされた定常状態」を計算するべきなのである。そのようなインプリケーションを予測市場に対して適用した場合、我々のやるべきことは明確だ。過渡状態とは個々の意思決定者が残した途中の記録であるから、注文情報や株価時系列データにその情報が含まれており、それを積極的に利用するということである。

p-beauty contestにおいてはk-step playerに(k+1)-step playerが勝とうとするプロセスは心の中で走る時間経過であった。一方、予測市場では 時刻 tまでの株価を見て 時刻(t+1)における投資家の振る舞いが決まってくる。この時刻は物理世界における実時間である。しかし各時刻 t のそれぞれにおいては、各投資家は他の投資家を出し抜こうとする心的プロセスを走らせる。つまるところ心的時間と物理的時間の両方における動力学が働くことになる。他の投資家が完全に合理的で彼らより高いリターンがあげられないのなら、どうして市場に参入するだろうか? 市場に参加するものはすべからく何処かで自信過剰なのであり、その自信過剰性と市場の相互作用が結果的に高精度な政治的意思決定を可能にするのである。

投資家の間の激しい競争を踏まえると、基本的には過去の株価の方が現在株価より正しいというケースは少ないであろう。しかしp-beauty contestの実データに見られる限定合理性からは、過去の株価から背後のマスター方程式を推定して現在株価よりも妥当な推定値を予測するというアプローチが不可能でないことも示唆される。より優れた計量アプローチでは、現在の株価 (price)をvalueの最良推定値とは考えないファンダメンタル投資家に発想が近くなるだろう。長期のファンダメンタル投資家は、定常状態から離れたおかしな過渡状態にいると判断した株式を購入する。そしてその過渡状態から数年のうちに定常状態に収束すると考える。定常状態を理解した上で過渡状態をモニターすることが大事だと見なしているわけだ。

民主主義の強化という我々の目的の場合、一つの政治的意思決定のために数年も待つことはできない。定常状態に収束するまで待っていられないケースが度々ある。UKのEU離脱予測失敗のケースでは、予測市場が本来持っている「賢い投資家に力を与え愚かな投資家を退場させる」時間が投票前に確保できなかった。ならば、過渡状態から計算機上でマルコフ連鎖を回して定常状態を先読みするとか、一部の投資家の認知バイアスをアラートで察知して異常値を排除する、といったデータ加工をしても良いはずだ。そのようにして修正された予測市場株価時系列の方が市場そのままの値よりも本質を突いているかもしれない。加えて、そのようなデータ加工プロセスをも公開することで、市民の意思決定能力が高まる可能性もある。

最後に一つだけ実例を紹介させていただきたい。2013年のACM SIGKDD (データマイニング領域におけるトップ国際会議) で発表された [3] では、フォード社が意思決定インフラとして予測市場を導入したことで得られたメリットについて言及している。この場合、例えば青い車を増やすべきか赤い車を増やすべきかという意思決定において、世界中の社員のボトムアップな知恵を集約するためのインフラとして、投資家である社員が賭ける予測市場が導入された。賭けに勝とうと思うと、各社員が一丸となって今の消費者の好みを調査したりお得意さんにヒアリングしたりする。

株価自体もそれなりに役立ったようであるが印象的な言及として、ニュースイベントと株価時系列との対応関係を取ることで、どういうニュースに社員が過剰反応したりするのか、どこで市場の変化があったのかがモニタリングできるようになった点があった。株価時系列一つ残すメリットは、その株価自身だけではない。他のデータと組み合わせて回帰分析を行うなど、もっと高度な知見収集インフラとして役立つわけである。ビジネスで勝利すべく血眼になって予想を行う投資家の知恵を公的・政治的領域にも役立てられるようになったら我々は民主主義国に暮らしていたことを今よりもずっと感謝するようになるだろう。

References

[1] C. F. Camerer, T.-H. Ho and J.-K. Chong, “A Cognitive Hierarchy Model of Games,” The Quarterly Journal of Economics, 119(3):861-898,  2004.

[2] T. H. Ho, N. Lim, and C. F. Camerer, “Modeling the psychology of consumer and firm behavior with behavioral economics,” Journal of Marketing Research, 43(3):307–331, 2006.

[3] T. A. Montgomery, P. M. Stieg, M. J. Cavaretta, and P. E. Moraal,
“Experience from Hosting a Corporate Prediction Market: Benefits Beyond the Forecasts,” Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 13), 1384-1392, 2013.

パワードスーツを着た消費者と対話する

あなたが財やサービスを売りたいお客さんはどのような情報源を信頼して購買判断しているだろうか? あなたがたマーケターのメッセージと、Yelpやbooking.comに寄せられるレビューとどちらを信頼しているだろうか。もし、あなたが今までブランド広告で成功してきた人で、商品の本質の代わりに無関係なステータス・イメージの刷り込みに注力してきたなら、これからはその成功体験に殺されないよう警戒しよう。お客さん達の習慣が昔と同じままかどうか、良く考える必要がある。そして今のお客さんが後者のタイプであることに気づいたら、自分のできることは昔よりもずっと少なくなったことを認めたほうがいい。今の消費者は手強い軍人ではない。しかし最強のパワードスーツを着た小学生であってあなたを狙い撃ちにしている。マーケターのやれることはまだいくらかあるが、これからはB2Cのマーケティングは花形の職業ではなくなっていくかもしれない。

統計バカごときが俺たちセンス抜群のマーケターに物申すなって? オーケー。そもそもこんな態度をとるマーケターは仕事上見たことないけども(笑)、そういう人が現れたとしても著者は伝えるべきメッセージがある。このブログの著者が信用できなくても、スタンフォード大学教授で消費者心理を利用したマーケティング理論の第一人者の話は聞いてみる気にならないだろうか? 彼はノーベル経済学賞を受賞したDaniel KahnemanやAmos Tverskyの重要な共同研究者でもある。そしてその彼が、自分の成功をもたらした心理学上の発見を自己否定するかのごとく、新しい時代のマーケティング・コミュニケーションについて論じているのが本書である。真の賢者は自己破壊的な衝動を持つことでイノベーションのジレンマから逃れるものだが、彼の衝動に我々も習うべきではないだろうか。

ウソはバレる―――「定説」が通用しない時代の新しいマーケティング

彼の名はItamar Simonson。マーケティング、特に機械学習モデルと心理学モデルの境界領域をターゲット研究分野に定めた著者にとっては、キャリア上絶大な影響を受けた恩師にも当たるだろう。彼は消費者が商品を選択する際に発生するcompromise effect (1989)と呼ばれる心理学的効果を発見した。それにより、新古典派の経済学者が仮定するような一貫した効用関数を一般消費者が持たない、という事実を劇的な形で示した。Compromise effectや、あるいは別の認知バイアスであるattraction effectと呼ばれる心理現象では、消費者はどのような選択肢が提示されたかによって商品の選好順序を変えてしまう。そこでマーケターたるあなたは、店頭で提示する商品の組み合わせを意地悪く操作することで、割高な商品をいとも簡単に売りつけることができる。この心理学的テクニックは実際に多くの店舗販売で利用されてきた。

  • 便乗宣伝で申し訳ないが、著者は、compromise effectを再現しデータを元に定量予測できる特殊な機械学習モデルを2015年に発表している。論文はこちら

Compromise effectとは、トレードオフの関係にある選択肢集合からは真ん中の妥協した選択肢が選ばれやすい、という現象のことである。例えば下図のように価格と品質とにトレードオフがある選択肢をランダムに分けた被験者に見せる。Windows OSのhome edition, professional edition, ultimate editionみたいなものを想像するのが簡単だろう。この時、存在するすべての選択肢を一度に見せないのが心理実験の肝で、グループ1には選択肢集合{A,B,C}を、グループ2には{B,C,D}を、グループ3には{C,D,E}を見せる。結果はグループ1ではB、グループ2ではC、グループ3ではDが最も人気を得る。見せ方によってB>CなのかC>Bなのかが逆転してしまうわけだ。

NIPS2014

実商品の例が見たい人は下記スライドのpage 5に示した、パソコンを選ぶ例を参照してほしい。

さて、なぜこの現象がマーケティング上そんなに重要なのだろうか? それは絶対効用に基づく競争から逃れるヒントになっているからである。資本主義社会で生きる我々は常に、競合他社との競争にさらされている。たとえ良い製品を作ったとしても、似たスペックの製品を他社が出してきたら? 顧客を他社に取られないためには、同じ値段でさらに良い製品に変えるか、または値下げをして利益を諦めなければならない。ところがcompromise effectに頼ると、たとえ今の製品を改善 or 値下げしなくても、二つの追加の囮の商品: 品質が良いが値段も高い商品と値段が安いが品質も悪い商品を棚に並べておけば、あなたの商品を消費者がさも納得して買って行ってくれるのだ。これは消費者が世の中にあるすべての商品を比較して絶対効用が最大のものを探すことをせず、目の前にある3つの選択肢から相対比較だけを元に選ぶことを強要されていると発生しやすい。

ところがSimonsonは、compromise effectのような心理学効果は今日の実際の購買シチュエーションでは消えてしまうことを確認した。つまりAmazon.comやkakaku.comで類似商品を検索し、種々の商品のレビューを読んで比較して納得した一品を最後にカートに入れるという一連の行動を伴う状況では、目の前の選択肢に集中させて騙す方法が通用しないのである。

彼ら心理学者のグループは、compromise effectを含む認知バイアスが人間から消えたわけではないことも確認している。たとえオンライン・ショッピングであっても、検索行動をさせなかった場合にはcompromise effectが再現する。人間自体が賢くなったわけではないのだ。人間は依然として、有限の記憶しか持たず余計な思考を省こうとする堕落した存在であり続けている。しかし環境は大きく変わった。kakaku.comで同一製品の最安店舗を検索したり、skyscanner.comで所定のルートを飛ぶ最も有利な航空券を店舗横断で探してしまう。製品それ自体の質が不確かな場合でもレビューサイトのおかげでどの競合製品なら欲しいものを代替できるか今日では分かってしまうし、そしてその検索を更に直感的にするiPhone / Androidアプリなどが登場してきた。その結果、怠惰で間抜けな人々であっても新古典派経済学が仮定する合理的なeconomic man (経済人)と似た振る舞いを示すようになってきた。つまるところ、ヘンリー・キッシンジャー博士も真っ青の賢い軍師ではなく、インターネットという最強のパワードスーツを着た本来は非力な村人が今日の消費者であって、その村人がマーケターの仕事を奪おうとしているわけだ。

この大きな変化は、単価が高くて質の評価が容易な商品、例えばパソコンや自動車で顕著になってきている。FMCG (Fast Moving Consumer Goods)のように単価が低くていちいち真面目に検索しない商品や、芸術性を価格に転嫁している商品ではまだブランドの力が残っているだろう。しかしどのような新しいwebサービスがこれら残り少ないブランドの力を奪ってしまうかはわからない。

Simonsonたちは新しい時代の良い点も積極的に説明している。マーケターが刷り込もうとするブランドイメージがなくても、他の消費者のレビューが良ければ製品が売れるケースが出てきた。純粋に良い製品を作った人・純粋に良いサービスを提供するホテルやレストランが評価されやすい時代に変わってきたのだ。また、イメージを刷り込む代わりに、レビューコミュニティに商品の実際の利点を評価してもらうことでも売り上げを増やせる可能性がある。誤った刷り込みのおかげで高い利益率を享受してきた悪党には厳しい時代になったが、本質的な価値を実際に創造する人々には恩恵がもたらされつつあるわけだ。

本書はマーケティングだけでなくバリュー投資にとってもインプリケーションがある。オールドエコノミーに属するバリュー株銘柄の幾つかは、消費者自身の過去の経験への執着を担保としたブランド力によって価値を維持している。FMCGかつ味への執着という恩恵を受けているコカ・コーラのブランドはそう簡単に毀損しないだろう。しかし時計ブランドのバリュー株は再考が必要そうだ。他にも、B2C事業ではブランドが毀損しやすくなってもB2Bのサービスの幾つかは事前に評価することが困難なものもある。クラウド・コンピューティングのサーバーならコストパフォーマンスが客観的で他ユーザーのレビューも参考にできるだろう。一方でクライアント企業の本業ビジネスを変革するコンサルティングは、クライアントにとっての事前評価が難しくブランドの毀損は比較的ゆっくり進むだろう。未来志向のマーケター・投資家の双方にとってmust readな一冊である。

References

I. Simonson. Choice based on reasons: The case of attraction and compromise effects. Journal of Consumer Research, 16:158–174, 1989.