好書試閱

◎第十一章 賽局理論

►奈許,就是賽局達到均衡
你知道規則,我也知道…… 我們了解這個遊戲,我們準備參與。
──英國歌手瑞克.艾斯里(Rick Astley),上文引自〈Never Gonna Give You Up〉一曲

賽局理論涵括各種合作與競爭情境,但這個領域的起源相當類似撲克牌手對決:兩方互相角逐,一方的獲益就是另一方的損失。分析這些賽局的數學家試圖從中找出均衡(equilibrium),也就是一套可供雙方遵循、並且讓雙方知道對方的行動後,也不想改變本身行動的策略。
這種狀態稱為「均衡」是因為它很穩定,也就是雙方即使再怎麼考慮,都不會改變自身選擇。我用你的策略考慮後,很滿意我自己的策略;你用我的策略考慮後,也很滿意你自己的策略。
舉例來說,在剪刀石頭布中,均衡的意思是完全隨機從這三種
手勢出一種,出每種手勢的機率大約是 1/3。使這個均衡穩定的因素是,如果雙方都採取這種1/3-1/3-1/3策略,那麼對雙方而言,除了堅持下去之外別無更好的方法(如果我們試著多出幾次石頭,對手很快就會注意到,開始經常出布,這樣又會使我們多出幾次石頭,如此不斷循環,最後雙方都會回歸原本的1/3-1/3-1/3策略)。
數學家約翰.奈許(John Nash)於1951年證明,所有雙人賽局至少有一個均衡狀態。這項重大發現在賽局理論領域影響深遠,也讓奈許獲頒1994年諾貝爾經濟學獎(並促成《美麗心靈》〔A Beautiful Mind〕這部講述奈許生平的小說和電影問世)。現在這樣的均衡經常被稱為奈許均衡,也就是前述的撲克牌手丹.史密斯想追求的狀況。
從表面上看來,雙人賽局一定存在奈許均衡這一點,似乎可以讓我們擺脫撲克牌和許多類似競爭中,常見的鏡廳遞迴現象。我們感到自己捲入遞迴漩渦時,一定有機會脫離對手的掌控,尋求均衡,發現最佳策略,採取合理的行動。在剪刀石頭布中,如果你知道隨機出拳其實就是長期而言的不敗策略,就不用花力氣觀察對手的表情,猜測對手下一手可能出什麼拳了。
更籠統地說,奈許均衡能夠預測任何一組規則或誘因的穩定長期結果,因此它能做為預測和擬定經濟政策及一般社會政策的重要工具。諾貝爾獎得主羅傑.麥爾森(Roger Myerson)曾說,奈許均衡「在經濟學和社會科學領域擁有基本且廣泛的影響力,相當於DNA雙螺旋的發現在生物學領域中的影響力。」
然而,電腦科學把這件事變複雜了。大致上說來,數學研究的是事實,電腦科學研究的是複雜性。而我們已經知道,如果一個問題是難解問題,那麼單單取得解答是不夠的。
賽局理論雖然讓我們知道有均衡存在,卻未說明這個均衡是什麼,也沒有說明如何達到均衡。加州大學柏克萊分校電腦科學家克里斯托斯.帕帕迪米崔歐(Christos Papadimitriou)曾在作品中提到,賽局理論「通常會預測參與者的均衡行為,但沒有說明要怎麼達到這狀態,但這通常是電腦科學家最看重的事。」史丹佛大學的提姆.羅夫加爾登(Tim Roughgarden)同樣不滿意奈許僅是證明均衡必定存在。他說:「好。不過我們是電腦科學家,對吧?給我們一些可以運用的東西。不要只是告訴我們有這東西,請告訴我們如何找到它。」因此原本的賽局理論衍生出演算法賽局理論,也就是說,研究賽局的理論性理想策略,轉變成研究機器(和人)如何擬定賽局策略。
思考太多關於奈許均衡的問題,其實很快就會讓我們陷入運算困難。二十世紀末,判斷某個賽局是否具有一個以上的均衡,或某個均衡是否給某個參與者特定報酬,或是某個均衡是否必須採取某個行動等,都已經確定是難解問題。然後從2005年到2008年,帕帕迪米崔歐等人證明,純粹尋找奈許均衡同樣是難解問題。
剪刀石頭布這類簡單賽局乍看之下,或許有明確的均衡,但現在已經知道,在複雜程度接近真實世界的賽局中,我們不能認為參與者理所當然一定能發現或達到賽局的均衡。因此這也表示,賽局設計者不
一定能藉助均衡來預測參與者的行為。這個嚴酷的結果涵括的範圍相當廣:奈許均衡是經濟學理論建立模型及預測市場行為的重要方法,因此擁有崇高地位,但這個地位可能名過其實。帕帕迪米崔歐解釋:「如果一個均衡概念無法有效運算,那麼它預測理性參與者行為的可信度,將會大打折扣。」MIT的史考特.艾隆森(Scott Aaronson)也同意這一點,他說:「就我看來,如果奈許均衡存在的定理,被視為和自由市場與政府介入的爭議有關,那麼尋找這類均衡的定理(難解)也應該視為有關。」參與者找得到奈許均衡時,奈許均衡的預測能力才會造成影響。eBay前研究長卡馬爾.簡恩(Kamal Jain)曾說:「如果你的筆記型電腦找不到(奈許均衡),那麼整個市場也都找不到。」
不採取「均衡」作法的代價就算是我們能達到均衡的時候,單單只是穩定還不夠好。這點看來或許有點自相矛盾,但均衡策略(也就是所有參與者都不願意改變行動的狀態),不一定是可讓所有參與者獲得最佳結果的策略。說明這點的絕佳範例,是賽局理論中最著名、最刺激,也最惹爭議的雙人賽局:囚徒困境(prisoner’s dilemma)。
囚徒困境的狀況是這樣的:假設你和另一個共犯搶銀行後遭到逮捕,被關在不同牢房,現在你必須決定是要彼此「合作」,也就是保持緘默、打死不認,還是要背叛同伴,向警方告發對方。你知道如果你們彼此合作,保持緘默,警方沒有足夠證據可以判你們有罪,因此兩人都可以平安離開,瓜分贓款,可能是每人50萬美元。但如果你們其中一人背叛並告發對方,而對方沒有招供,則告密者就可以平安離開,獨吞100萬美元,拒絕招供的一方則會成為這樁案子唯一的罪犯,遭判 10年徒刑。如果你們互相告發,那麼兩人將共同承擔罪名和刑期,每人坐牢5年。
問題就在於:無論你的共犯怎麼做,你都應該背叛對方。如果你的共犯告發你,那麼你告發共犯將可少坐5年牢,因為有人可以跟你分攤刑期,你不用自己承擔所有罪刑(坐牢10年)。如果你的共犯保持緘默,那麼告發他將可讓你獨吞這100萬美元,不用跟對方分贓。無論如何,不論你的共犯怎麼做,你背叛都比合作來得有利,不這麼做的話,無論對方怎麼做,都一定會使你的處境更糟。
事實上,這使得背叛不僅成為均衡策略,還成為「主導策略」(dominant strategy)。主導策略是因應對手各種可能策略,從而脫離對方的掌控,完全避免遞迴的最佳手段。主導策略的力量非常強大,但現在我們遇到了矛盾。如果每個人都很理性,採取主導策略,那最後你們兩人都會坐五年的牢。跟逍遙法外和白花花的 50萬美元相比,這個結果對每個人而言都差了很多,這到底是怎麼回事?
這是傳統賽局理論中的重要見解之一:對一群依據自身利益採取理性行動的參與者而言,「均衡」或許不是最好的結果。演算法賽局理論依據電腦科學的原理,採用了這個見解並加以量化,創造出「自主行為代價」(price of anarchy)這種度量。自主行為代價可衡量合作和競爭兩者間的差距(合作指集中設計或協調的解決方案,競爭指所有參與者各自試圖取得對自己最好的結果)。在囚徒困境這樣的賽局中,這個代價其實是無限大:提高贓款金額和拉長刑期,可能會使兩種結果間的差距變得更大,即使主導策略不變也一樣。對於參與者而言,不合作所造成的痛苦沒有極限。但演算法賽局理論學者發現,在另一些賽局中,自主行為代價其實沒有那麼糟。
流量就是個不錯的例子。流量可以指每天通過擁擠車流到公司上班的通勤者,也可以指在網際網路上不斷收發TCP封包的路由器,系統中的每個成員只想取得對自己最有利的結果。駕駛人不在乎路線,只要最快到達就好;路由器也只想花最少的力氣收發封包,但在這兩種狀況中,這種想法都可能造成重要通道過度壅塞,進而影響所有人。不過影響程度究竟有多大?提姆.羅夫加爾登和康乃爾大學的伊娃.塔爾多斯(Éva Tardos)於2002年證明,這種「自私路徑」法的自主行為代價居然只有4/3 。也就是說,各行其是只比毫無阻礙地順利行進慢33%。
羅夫加爾登和塔爾多斯的研究成果,對有形車流的都市規劃和網路基礎建設,都造成深遠的影響。舉例來說,自私路徑規劃的自主行為代價很低,或許可以解釋為什麼網際網路沒有中央主管機關負責管理個別封包路徑,也能順利運作。即使可能執行這樣的協調,狀況也好不了多少。
在人類的交通方面,自主行為代價甚低有好處、也有壞處。好處是缺少中央協調最多只會讓通勤時間增加 33%。而另一方面,如果你期待有網路連線的自動駕駛汽車可以帶你進入交通的天堂,那你可能要失望了,因為現在自私駕駛人各行其是的情形,其實已經相當接近最佳狀態。自動駕駛汽車確實應該能減少行車事故,或許也能讓汽車行駛得更近,兩者都可加快車流。不過說到壅塞程度,自主行為的壅塞程度只有經過完美協調後的4/3,這代表經過完美協調後的壅塞程度只有現在的 3/4。這有點像是詹姆士.布蘭齊.卡貝爾(James Branch Cabell)的著名詩句:「樂觀的人說,我們生活在最好的時代,悲觀的人則害怕這句話是真的。」由規劃專家和整體需求來解決壅塞問題,一定比依據人類或電腦、自私或合作的個別駕駛人來決定更好。
量化自主行為代價讓這個領域擁有具體及嚴密的方法,來評估非集中系統的優缺點,這對人類本身參與賽局的許多領域造成廣泛影響(參與者可能知道、也可能不知道)。自主行為代價很低,代表這個系統無論是否細心管理,運作狀況都和放任不管差不多。另一方面,自主行為代價很高,則代表如果細心協調,狀況就可能好轉,但如果沒有任何介入,就可能造成災難。囚徒困境顯然就屬於後者。可惜的是,世界上的許多重要賽局都是這樣的。

►公有地悲劇
1968年,生態學家賈瑞特.哈定(Garrett Hardin)研究雙人囚徒困境,把規模擴大到涵括一個農莊中的所有成員。哈定請讀者想像農莊裡有一塊「公有地」,這片草地可讓每個人放牲口吃草,但容量有限。
理論上,所有村民只能放一定數量的牲口,讓每個人的牲口都有草可吃。但實際上多放一點牲口對自己有利,影響則似乎很小,不會造成嚴重後果。然而如果每個人都這麼想,都多使用一點點公有地,就會造成可怕的均衡:草地完全遭破壞,使大家的牲口都沒草可吃。
哈定把這種狀況稱為「公有地悲劇」(tragedy of the commons),後來這成為經濟學家、政治學家以及環境運動,用於觀察汙染和氣候變遷等大規模生態危機的主要工具。卡內基美隆大學電腦科學家及賽局理論學者艾弗瑞姆.布魯姆(Avrim Blum)說:「我小時候有一種汽油叫做含鉛汽油。含鉛汽油便宜了一角左右,但它會汙染環境⋯⋯如果每個人都這麼做,那麼你使用有鉛汽油對你個人(健康)造成的影響,會增加多少?其實沒有很多。這就是囚徒困境。」對企業和國家而言,這類狀況同樣成立。日前有個新聞標題一語道破了這個問題:「少用化石燃料才能維持氣候穩定,但應該叫誰少用?」每個企業(某個程度上也包括每個國家)最好都能比其他企業或國家不顧後果一點點,以便維持競爭力。但如果大家都不顧後果,就可能破壞地球,最後討不到便宜:大家都無法取得想攫取的經濟優勢。
這類賽局的想法非常普遍,我們不需要特別觀察不當行為,也能發現它舉目可見。我們只要一不留意,就很容易形成惡性均衡。怎麼會這樣呢?只要看看公司的休假規定就好。美國人的工時是全世界最長的。經濟學家曾說:「在美國,工作的價值最高,但休閒的價值最低。」美國很少有法律規定雇主必須提供休假,甚至有些美國員工即使有假也不想用。近年一項研究指出,美國員工平均只用掉一半假期,更有15%完全沒有休假。
目前(兩個作者居住的)舊金山灣區正在對休假規定進行根本的典範轉移,試圖改變令人遺憾的現狀。這個轉移用意良好,但是徹底失敗。它的前提聽起來很正常:與其給予每個員工固定天數的假期,又要浪費人資的人力確認每個人的休假是否超過限制,何不讓員工自由管理?何不給員工無限的假期?目前為止的個案報告褒貶不一,但從賽局理論的觀點看來,這種作法是個惡夢。理論上,所有員工都希望盡量多休假,但也希望比其他人少休一點假,以便獲得忠誠、認真、負責的評價(這樣比較容易升遷)。每個人都以其他人為基準,比這個基準少休一點。
這個賽局的奈許均衡是0。軟體公司Travis CI執行長馬希亞斯.梅耶爾(Mathias Meyer)寫道:「許多人不敢休假,是因為不想被視為休最多假的人,這是少者獲勝的比賽。」
這是公有地悲劇發展到極致的結果。這類狀況在組織間的殺傷力,與在組織內部不相上下。假設某個小鎮上有兩家小店,兩位店東可以任意決定每天都開店,或是一星期只開六天,星期天休息,跟朋友和家人共度。如果兩人都選擇休息一天,就可以維持原本的市場占有率,壓力也比較小。然而如果有一位店東決定每天開店,就會招來更多顧客,這其實是從對方手中搶來客戶,因此會威脅到對方的生計。這時奈許均衡是每個人每天都工作。
2014年年底,這個問題在美國引發熱戰。當時許多零售商不想把市占率拱手讓給在感恩節後的購物季搶先開店的對手,因此相繼破壞這個糟糕的均衡。當時《國際財經時報》報導:「商店比以往更早開門。」梅西百貨決定比前一年提早兩個小時開店,Target隨之跟進。Kmart在感恩節當天早上六點就開店,而且連續營業42小時。
那麼,如果我們發現自己身陷這類狀況(無論是雙人的囚徒困境,或是多人的公有地悲劇),該怎麼辦?就某種意義而言,應該什麼都不做。令這類惡性均衡維持穩定(使它們均衡)的,正是最糟糕的特質。
基本上我們無法從內部改變主導策略,但這不表示這類惡性均衡無法矯正,只表示我們應該朝外尋求解決方案。

►機制設計:改變賽局
不要氣參加者,要氣就氣比賽。──饒舌歌手 Ice-T
不要再聯合外人對付家人,絕對不要。──電影《教父》

在許多關於人類合作天性的辯論和爭議中,囚徒困境都是焦點,但倫敦大學學院賽局理論學家肯.賓摩爾(Ken Binmore)認為,這類爭議有許多已經走偏。他認為,「說囚徒困境證明人類合作有多重要是完全錯誤的。相反地,在它呈現的狀況中,人類完全不應該合作。」〔36〕、〔37〕
如果賽局規則迫使我們提出不好的策略,或許我們不應該試圖改變策略,而應該試圖改變賽局。如此一來,我們將進入賽局理論的另一個分支:「機制設計」(mechanism design)。賽局理論探討在一定規則下會出現什麼行為,機制設計(有時也稱為「逆向賽局理論」)則反其道而行,探討什麼規則會產生我們希望看到的行為。如果說賽局理論呈現的結果違反直覺(例如均衡策略或許對參與者而言合理,但對所有人都不好),則機制設計呈現的結果可能更是如此。
我們把你和搶銀行的同夥放回牢房,再次經歷囚徒困境,但增加一個重要條件:教父。現在你跟同夥都是某個犯罪集團的成員,而且集團老大已經明講,誰敢告發同伴他就做掉那個人。這個賽局報酬變更限制了你能採取的行動,但反而使結果更可能朝對你和同夥都好的方向發展。由於背叛現在變得比較不吸引人(這是客氣的說法),所以兩個囚徒都傾向合作,而且雙方都能帶著 50萬美元逍遙法外,不過當然得上繳一部分給老大。
此時我們可以採取一個違反直覺、但效果極佳的作法:惡化所有結果(一是死掉,一是損失部分錢財),但最後讓各方都過得更好。
金石堂門市 全家便利商店 ok便利商店 萊爾富便利商店 7-11便利商店
World wide
活動ing