亚洲另类在线观看,特黄特黄欧美大片在线视频,播放毛 潮喷97免费人妻,无码人妻久久一区二区三区不卡,日本动漫爆乳h真人无遮挡,在线观看a视频

人機大戰(zhàn)再上演,玩德?lián)涞摹鞍柗ü贰眮砹?/h1>
來自:梁風
時間:2017-01-12 14:43:35
分享:
米么信息 米么信息 米么信息
在Master“圍剿”圍棋頂尖高手之后,人工智能又盯上了德州撲克。這一次出場的選手是來自卡內基梅隆大學(CMU)開發(fā)的人工智能選手“Libratus”。

在Master“圍剿”圍棋頂尖高手之后,人工智能又盯上了德州撲克。這一次出場的選手是來自卡內基梅隆大學(CMU)開發(fā)的人工智能選手“Libratus”。

從美國時間1月11日開始,一場名為“大腦對戰(zhàn)人工智能:加大賭注”(Brains vs. Artificial Intelligence: Upping the Ante)的巡回賽,將在匹茲堡的河流(Rivers Casino)賭場進行,Libratus將和4位人類頂尖職業(yè)選手展開對決。四名職業(yè)選手分別是Jason Lee、Dong Kim、Daniel McAulay和Jimmy Chou。

賽程為期20天,總共將對戰(zhàn)12萬手牌,無限下注,獲勝者將獲得20萬美元的獎金。

與之前的AlphaGo戰(zhàn)勝李世石,Master橫掃60位頂尖選手的圍棋不同,德州撲克是一種不公開、信息不對稱的游戲,每個選手都只能在看到自己的手牌。也就是說這是一場非完美信息對稱游戲。

此前,人類已經在有限下注的德?lián)洚斨袘?zhàn)勝過人類。不過,在有限下注的游戲中,全部的決策點(decision points)只有不到10的14次方個。而一對一無限注中包含10的160次方個決策點(decision points)。

不過,在CMU在宣布Libratus的比賽之前,有一件事多少搶了Libratus的風頭。

上周,著名的論文網(wǎng)站 Arxiv 出現(xiàn)一篇題為《DeepStack:無限下注撲克里的專家級人工智能》(DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker)的論文,作者是來自加拿大Alberta大學、捷克Charles大學、布拉格捷克理工大學的研究人員。DeepStack稱為第一個在限下注德?lián)渲蝎@勝的人工智能程序。

研究者稱,在一項有數(shù)十名參賽者進行的44000手撲克的比賽中,DeepStack 成為第一個在無限注德州撲克中擊敗職業(yè)撲克玩家的計算機程序。

不過,雖然DeepStack占據(jù)了先發(fā)優(yōu)勢,可是因為是以論文的形式呈現(xiàn),引發(fā)的關注度就要遜色一些。從2016年11月7日到12月12日共計4周的時間里,來自17個國家的33名選手跟 DeepStack 進行了較量,比賽在線上舉行,共計進行了44000手。由于在線上進行,一個選手最多可以同時玩四局。排名前三(以AIVAT計)的選手分別獲得5000加元、2500加元和1250加元的獎勵。

而CMU的Libratus走的是阿爾法狗的路數(shù),公開透明,把地點直接設在賭場當中,獎金也豐厚得多,獲勝者將摘得20萬美金。12萬手的交鋒相當于前者近三倍,從統(tǒng)計學上也更有說服力。而且,參與的選手也更有分量,有專家質疑DeepStack的對戰(zhàn)選手中沒有頂級高手,但是Libratus對戰(zhàn)的選手則都是世界頂級選手。

然而在決策機制上,Libratus卻又與阿爾法狗大相徑庭。據(jù)報道,由于德州撲克是信息不對稱的博弈,因此Libratus采用的是“納什均衡”策略,通過平衡風險與收益來決定自己的下一步。納什均衡追求的是最安全而不是最極致的利益。

納什均衡的經典案例就是“囚徒困境”。1950年,數(shù)學家塔克任斯坦福大學客座教授時講過這故事。

假設有兩個小偷A和B聯(lián)合犯事、私入民宅被警察抓住。警方將兩人分別置于不同的兩個房間內進行審訊,對每一個犯罪嫌疑人,警方給出的政策是:

  1. 如果你倆都坦白罪行,交出臟物,都會因盜竊罪被判8年。

  2. 如果你的同伙坦白了而是你抵賴了,你將會以妨礙公務罪加刑2年,而你的同伙因舉報有功被減刑8年,立即釋放。

  3. 如果你倆都不坦白,則警方因證據(jù)不足不能判偷竊罪,但可以私入民宅罪將兩人各判1年。

畫個表格分析一下:

人機大戰(zhàn)再上演,玩德?lián)涞摹鞍柗ü贰眮砹? data-img-size-val=

從這張表里可以看出,兩人都不坦白是最好的結果??蓡栴}是,警方把兩人分開審訊,形成了“不完整信息博弈”。你無法保證你同伙的人品如何。這時如果你為了利益最大化,選擇了不坦白,而你的同伙卻把你出賣了,那你就成了最大的輸家。這個時候納什均衡的最佳選擇就是,果斷坦白。這樣至少你會得到和你同伙一樣的待遇,而你的同伙如果貪心,你就賺大了。

換句話說如果你遵循納什均衡,最壞的結果是:和對手打了個平手。也就說,在這一策略當中,只要其他玩家的策略保持不變,單一玩家就無法通過變換策略獲益。

反映到德?lián)渖?,如果Libratus每次的選擇都能實現(xiàn)納什均衡,那么結果很可能是:雖然在某些回合中,人類選手會占得上風。但是在12萬手的交鋒中,機器大概率會成為贏家。

值得一提的是,早在2015年時,CMU的AI程序Claudico就在無限下注的比賽中跟德?lián)漤敿飧呤纸贿^手,共計進行了8萬手。不過,在這一次比賽當中,AI程序被狂虐,排在倒數(shù)第二名。當時參與的選手有Bjorn Li、Doug Polk、Dong Kim、Jason Les。

需要指出的是,Dong Kim、Jason Lee在這一次比賽當中還會參加。在2015年的對戰(zhàn)當中,他們分別排在第三和第五的位置。

在Claudico落敗之后,它的設計者Sandholm依然相信,在未來人工智能將很快能夠擊敗任何領域的頂尖人類玩家。經歷一年半的閉關修煉之后,不知道這一次CMU的AI選手能不能一雪前恥?對于比賽的結果,你有什么看法,歡迎留言。


米么信息 米么信息 米么信息
分享文章至