0 AlphaZeroの美しき調和

beautiful harmony。美しい調和。美しきハーモニー。

唐突だが私は学生時代、囲碁部に一時期所属していたことがある。

碁はもともと好きだった。碁盤に並べられた美しい石の形に魅了されていた。

昭和最強と言われた中国出身の棋士、呉清源は「碁は争いや勝負というより調和である」と言った[1]。晩年の呉清源は、この「碁は調和なり」という考え方の延長線上にある「二十一世紀の碁」の構想に明け暮れた。呉によれば、碁は「六合(りくごう)」の世界であるという。六合、すなわち東西南北天地の六方のことで宇宙を指す。盤面の上に広がる、361の交点から成る宇宙。碁の世界に理を求めるということは、宇宙の理を求めるということに他ならない。呉清源の「二十一世紀の碁」構想は、宇宙という巨視的な調和を碁盤に降ろしてくるという試みであった[2]

呉清源が「碁は調和である」という認識にどの瞬間辿り着いたのかは定かでない。しかし、その端緒は昭和八年の夏、19歳の呉清源と彼のライバルである24歳の木谷實が保養の地、信州地獄谷温泉において発明した新布石法にまで遡ることができる。呉清源は、愛読している経書『易経』と『中庸』の二冊を保養の地に携えていた。たまたま『中庸』の初めにある「不偏之謂中不易之謂庸」における「中」の意義を知ったとき、働きや釣り合いといった大局的バランスを知ったという[3]。すなわち「調和」の感覚はこの時点ですでに胎動していた。

当時の碁界は、いまだに本因坊家に代表される家元制度が残存しており、碁においても封建的な要素が残っていた。たとえば布石や定石における古風な様式や格式あるいは流儀の存在、等々。しかし、若き呉清源と木谷實はそうした古い伝統を完全に打破してみせた。それが彼らが導入した新布石法である。新布石法、それは一言でいえば碁に近代的な合理化をもたらした。

二人が新布石を試みるようになってまもなくの昭和9年、木谷實、呉清源、安永一による共著『囲碁革命・新布石法』が出版される。共著者の一人でアマチュア囲碁ライターの安永による序文は、当時の異様な熱気を生々しいほどに伝えている。

私は敢えて革命と言う。それは決して従来の囲碁の放棄ではない、ただ従来の囲碁に基底を置き、然もそれを止揚して築き上げた偉大なるピラミッドである。

昭和維新、非常時日本の成果として、まだ其の実体を暴露しないまでも、何物かが生まれ出るであろう胎動を、我々は昨年の中頃から聞いている[4]

『囲碁革命・新布石法』にまとわりつく空気に、マルクス主義の退潮と軍国主義の高揚といった当時の世相の影響を読み取ることはさほど難しくない。ともあれ、新布石法はこのような時代のもとで産声を上げた。

新布石法は従来の碁が陥っていた因襲から来る硬直性を徹底的に解体した。その際、指針として導入されたのが手割り論である。この江戸時代の高名な棋士、本因坊道策が発明したとされる手割り論は、簡単に言えば、一手の石の最大効率を計算するために採られる理論のことである。つまり、新布石法では石を最大限に働かせることが第一義となる。「この、すべての着手の能力を最大限に発揮するということは、つまるところ各々の着手が相互に関連して働くこと、すなわち盤上の全着手が一つの有機的な統一体となることである」[5]

著者らは、三線の辺や隅に地が偏っている状態を固定地域と名付け、それに対して現在は地ではないが後に至って地となる可能性のある状態を可能的地域と名付ける。可能的地域は固定的地域に比して、偏りがなく融通性がある。そして何より発展性がある。対して、部分的な地域で完成してしまっている固定的地域は、「囲碁が渾然たる融和を持つ一つの有機的統一体であることを妨げることになるから、悪いのは当然」[6]ということになる。

かくして新布石法では「全局的釣合い」が志向される。石の働きと最大効率、バランス、石同士の相関、釣合い、融和、大局観、有機的統一体、すなわち調和(ハーモニー)……。

『新布石法』は、出版されるとまたたくまに10万部近くを売り上げたという。端的に言えば、新布石法は流行った。アマチュアからプロまで新布石法を試した。先に触れたように、新布石法の隆盛に当時の時代精神を見て取ることはさほど難しくないだろう。欧米列強の脅威に対して中国を含めたアジアと日本とが連携をはかる大アジア主義。そして軍部の台頭と「大東亜共栄圏」構想。1942年には当時の知識人を集めたシンポジウム「近代の超克」が開かれている。

流行の棋風が当時の時代精神(それも政治)を反映していると言えばナンセンスに聞こえるだろう。しかし、紀元前の中国では碁盤を用いて天文や易を占っていた。祭祀と政治とが一元化している祭政一致のもとでは、易を政治の指針にしていた。つまり、古代では碁盤の上で(実際に)政治が行われていた。碁が脱―政治化を遂げ、ゲームとしての形式化を一通り終えたのは後漢の時代に入ってからだという[7]。碁の起源には政治の次元が存在する。

それはともかく、新布石の確立以来、囲碁は近代化を遂げた。つまり「調和(ハーモニー)」を目指すゲームとなった。それは先の「碁は調和なり」という呉清源の言葉にも現れている。スピードとバランスが、厚みと勢力が、効率と形の美しさが重視された。「宇宙流」なる布石まで現れた。美しい調和を目指せば、自然と勝てる。なぜならそれが碁の根底にある「棋理」であり、すなわち宇宙の「真理」だからである。

だが、Google DeepMindが開発したコンピュータ囲碁プログラムAlphaGoの登場によって、何かが決定的に変わってしまったかのようである。少なくとも何かが。

AlphaGoは2016年にトップ棋士のイ・セドルに打ち勝った。つまりこの瞬間、AIが碁でも人類を追い抜いた。

コンピュータが囲碁で人間に勝つことは不可能だと言われてきた。なぜか。それは大雑把に言えば盤面が広いからである。一般にゲームの複雑さは、ゲームの局面の可能性の多さ(探索空間の大きさ)による。囲碁は19×19という多くのグリッド数を持ち、加えてゲームの駒である白黒の石が均質であるため、チェスや将棋に比べてその探索空間は指数関数的に増大する[8]

とりわけコンピュータ碁は序盤(布石)を苦手としてきた。言うまでもなく、探索空間が膨大すぎるためである。だが、人間はそれを直観と感性、美的センスによってカバーすることができる。人間はさながら盤面という宇宙に絵画を描くように布石を打つことができた。ここから、コンピュータ碁は人間の優れた感性には勝てない(あるいはトレースできない)という固定観念が生まれた。なぜならコンピュータはしょせん「計算」しかできないのだから。碁は「計算」に還元することができない幽玄な深みを湛えているのだ……云々。実際、2000年頃までコンピュータ碁はアマ初段をようやく越えた程度の強さに留まっていた。

しかし2003年頃になると、乱数を用いてシミュレーションや数値計算を行うモンテカルロ法をコンピュータ碁に本格的に取り入れるようになる。広い探索空間における不確かで遅い評価関数を用いた計算を捨て、代わりに乱数を用いて終局まで幾度もプレイアウトし、その中から勝てそうな手を選ぶ手法を採用した[9]。結果、コンピュータ碁の棋力は飛躍的に向上した。皮肉なのは、人間的な感性や価値観を認知科学的にトレースする方法よりも、コンピュータの高速な計算力に直接依存する方法のほうが意外なことに効果的だったことだ。

しかし、真のブレイクスルーはAlphaGoによってもたらされた。AlphaGoの登場が衝撃だったのは、それが何より布石と序盤において驚異的な強さを示したからだ。しかも、それは人間には理解のできない手を平気で打った。プロ棋士の解説者もAlphaGoの開発チームもなぜAlphaGoがそのような手を打ったのか説明できなかった。しかも勝った。

AlphaGoはディープラーニングを取り入れていた。私はAIについては門外漢なので深入りは避けるが、乱暴に要約すればAlphaGoはプロ棋士たちの過去の膨大な棋譜データをベースにしながら、その後はプログラム自身が自分自身との対局を数千万回繰り返すという強化学習を用いることで飛躍的に力を伸ばすことに成功していた。

それはまさしくAIが人間の直観と感性を得たように見えた。それも、その直観と感性はある点では人間を超えているように見え、ある点では人間よりも人間らしく見えた。たとえば、人間側のイ・セドルが唯一勝利した第四局、劣勢のイ・セドルは78手目に起死回生の勝負手を放ち、AlphaGoはその鬼手にうまく対応できず形成が逆転した。AlphaGoはイ・セドルの手を予想していなかった。重要ではないと判断された変化の読みは刈り取られるモンテカルロ法の弱点を突いた形だったが、文字通りAlphaGoはそのとき「盲点」を突かれたように私には見えた。

言うまでもなく、これはAIをいたずらに擬人化している表現であろう。もちろん、AlphaGoは何も「見ていない」し、何も「感じていない」。AlphaGoには最初から目が備わっていない。思考と呼べるものがあるのかどうかすら定かでない。

だが、AlphaGoの衝撃はこれで終わらなかった。2017年10月に発表されたバージョンAlphaGo Zeroでは、人間の棋譜データを一切参照せず、プログラムに「ルール=勝つための条件」以外の知識をまったく教えずに強化学習を行うという「教師なし学習」(Unsupervised Learning)が取り入れられた。結果、AlphaGo Zeroはわずか三日で2016年のAlphaGoのバージョンを追い抜いた。さらに同2017年12月には囲碁だけでなくチェスや将棋も実行することができるAlphaGo Zeroの汎用プログラムAlphaZeroが相次いで発表された。

AlphaGoでは一応(?)プロ棋士たちの棋譜データを元に強化学習を行っていた。しかし、AlphaGo Zeroでは人間的な価値観が一切捨て去られた。AlphaGo Zeroの「Zero」はまさしく人間の「不在」を意味する。DeepMindのCEOは、AlphaGo Zeroはもはや「人間の知識の限界によって制約されなかった」ため非常に強力だ、と述べたという[10]。AlphaGo Zeroは「人間」という楔から解き放たれたことによって、文字通り「超人」(!)的なパワーを手に入れていた。人間の彼方、あるいは善悪の彼岸としての……?

そして、汎用プログラムAlphaZeroの登場に至り、ついに碁は自身すら無化することになる。というのも、それは原理的にはルールを形式化できるいかなるゲームも実行できるからである。「碁(Go)」は抽象化作用によってみずからの固有名を失う。AlphaZero。

ニック・ランドは、2019年4月にWEBマガジン『Jacobite』上に発表した論考「始原的な抽象作用(PRIMORDIAL ABSTRACTION)」において、こうしたAI碁の進化に伴う一方向的な「抽象化」の作用を「始原的な抽象作用」と呼んでいる[11]

古代中国において祭政に用いられていた碁は、まずゲームとしての抽象性を獲得することで脱―政治化を遂げた。続いて、本因坊道策による手割り論とそれを範とする呉清源らによる新布石法によって、囲碁は前近代的な様式や格式を脱し、一手の「最大効率」を重視することでゲームとしての抽象化を推し進めた。さらに、AlphaGoとAlphaGo Zeroの登場に至って、残存していた人間的な感性や価値観すら除去していき、そしてAlphaZeroではついに碁は自身の固有性をも捨て去り、純粋な抽象性と形式性へと還元されていった。碁は自己無化(=Zero)の末に抽象化作用の、その「始原=Alpha」へと向かう……。

AIが実行する数千万回という自己対戦、すなわち再帰的な自己言及――フィードバック・ループ。それがある閾値を超えると、人間という楔を解き放ち、それ自身が自律的な抽象性とでも呼ぶべきものを獲得する。ランドに従えば、AIが碁に勝つのは、人間がそれについて知っていると考えるものすべてを徹底的に除去することによって、である。

「強化学習」が「教師あり学習」に取って代わる。その遂行目的は、もはや人間の意思決定のエミュレーションではなく、むしろそのような意思決定が目指すところの最終目標の実現である。それは勝利のチャンスを向上させるために考えたやり方で振る舞うのではない。単に勝利するのだ[12]

AIはルールに記述された勝利条件=終局に向かって、あるいは正確に言えばそこから遡って作動する。そして、そこには始原的な抽象作用が働いている。

教師なし学習は、終局(the end)から遡って作動する。それは究極的に言えば、AIは自らの手で、その未来の果てによって駆り立てられているということを示唆している。だから、それはとある逃れがたさを凝縮しているのだ[13]

フィードバック・ループを伴う加速度的な抽象化作用が人間性とそれに付随する価値観をどこまでも減算していき、それがとある閾値を超えたとき、「善悪の彼岸」としての(未来の果てにある)絶対的な「終局」=<外部>を指し示してしまう。

ランドは別のテキストで、「抽象的ホラー(Abstract Horror)」という造語を持ち出している[14]。ランドは、人知を超えた抽象化作用に形而上学的なホラーの感覚を見て取った。

人工知能のホラー。もしそこにホラーがあるとすれば、それはAlphaZeroが指し示す「調和」なるものが、私たちが考えてきた「調和」とまったく関係のないものである可能性があることに拠る。AlphaGoシリーズは私たちの理解の及ばない奇異な手をしばしば打つ。それは一見私たちからすると「調和」の壊乱に見える。しかし、その壊乱と見えたものは実は、AlphaGoがそこから遡って作動する絶対的な「調和」=「終局」に至るための条件の内の一つでしかないとすれば……? どこまでも人間とは関係のない異様な(?)「調和」(もしそれが未だ調和と呼べるとすれば、の話だが)。

AlphaGo Zeroは盤外から対局者=人間を排除した。石たち同士は無限に自己自身と戦い合い、ひとつの自己完結的な宇宙を形成する。そして、それはついに宇宙の絶対的な終わり=終局としての「調和」を指し示すに至る。もちろん、そこに人間はいない(パスカルは「この宇宙の沈黙は私を震撼させる」と言った)。宇宙の終局における絶対的な沈黙が奏でるハーモニー……。

あるいは同じように、ニック・ランドは資本主義を惑星規模の人工知能と捉えた。ポジティブ・フィードバックによる加速度的な資本蓄積。価格が価格を付け、資本が資本に回収される。株価のアルゴリズムは他のアルゴリズムの動きを予想し合う。要因と要因が互いに絡み合い、すべてが再帰的に作用し合う。試行される無限回数の自己言及と、やがて起こる資本主義自身によるアイデンティティ・クライシスとしての特異点。そのとき、宇宙規模の資本主義はついにそれ自身の<価格>(!)を発見するに至るだろう。さながら、「生命、宇宙、そして万物についての究極の疑問の答え」に辿り着いた人工知能ディープ・ソートが卒然と「42」と言い放ったように……?[15]

そして盤面の石が数え上げられ、清算が完了する。ゲームは終わりを告げる。石は碁笥にしまわれ、盤上=宇宙には奇妙な美しさと沈黙だけが残る――。

【了】

[1] 『呉清源』江崎誠致 新潮社 1996 p219
[2] 前掲書 p.217
[3] 『新布石法』 呉 清源  (著), 木谷 実 (著), 安永 一 (著)1994 p.10
[4] 前掲書p.12
[5] 前掲書p.20
[6] 前掲書p.46
[7] 『天才の棋譜―呉清源自選十局譜面付』呉清源 p.44
[8] 久保田晃弘「計算する多宇宙の囲碁」p.151 『創造性の宇宙――創世記から情報空間へ』所収
[9] 前掲書p.153
[10] https://ja.wikipedia.org/wiki/AlphaGo_Zero
[11] https://jacobitemag.com/2019/04/03/primordial-abstraction/
[12] 同上。なお、引用箇所の翻訳については江永泉氏による私訳を一部参考にさせていただいた。この場を借りて感謝する。
[13] 同上。
[14] 「Abstract Horror」『Phyl-Undhu』所収 nick land
[15] 『銀河ヒッチハイク・ガイド』ダグラス・アダムズ 河出文庫