谷歌Deep Mind部門人工智能軟件的元老之一近日表示,相似的機(jī)器學(xué)習(xí)方法可以使AlphaGo成為一名優(yōu)秀的撲克玩家。
撲克向來(lái)是被認(rèn)為比圍棋難使用人工智能的游戲。在象棋以及圍棋類的棋盤(pán)游戲中,信息是全面的,因?yàn)殡p方都可以看到一切旗子。而撲克則是一種“不全面信息”的游戲,因?yàn)樵趯?duì)抗過(guò)程中,玩家只知道自己的牌以及桌面上的牌。玩家需要結(jié)合已知的明牌,以及對(duì)對(duì)手牌的猜測(cè)來(lái)決策。因此,撲克玩家在玩牌的過(guò)程中,會(huì)試圖通過(guò)概率以及微動(dòng)作來(lái)“讀”懂其他玩家的行為以及牌面。
由于撲克的性質(zhì),企圖通過(guò)機(jī)器學(xué)習(xí)來(lái)創(chuàng)造打撲克的軟件對(duì)人工智能來(lái)說(shuō)將是一個(gè)非常大的挑戰(zhàn)。而且,因?yàn)閾淇撕筒┺恼撓噙B,它也會(huì)有談判以及合作的一面。
雖然圍棋無(wú)比的復(fù)雜而且全部戰(zhàn)術(shù)很難被直接編寫(xiě)成代碼,但起碼 AlphaGo 可以看到棋盤(pán)上的一切。AlphaGo 在兩種人工智能技術(shù),深度強(qiáng)化學(xué)習(xí)以及樹(shù)搜索的幫助下,可以自我算出最佳落子點(diǎn)。簡(jiǎn)單來(lái)說(shuō),深度強(qiáng)化學(xué)習(xí)是一種是通過(guò)正面回報(bào)和負(fù)面回報(bào)來(lái)訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)的技術(shù),樹(shù)搜索則是一種計(jì)算未來(lái)步數(shù)的數(shù)學(xué)方式。
倫敦大學(xué)學(xué)院(UCL)的講師,AlphaGo 團(tuán)隊(duì)的首席研究員大衛(wèi)-西爾弗(David Silver)曾在這月初發(fā)表了一片論文,闡述了如何通過(guò)相似的方式來(lái)創(chuàng)造一個(gè)撲克機(jī)器人。在一名 UCL 的研究生約翰內(nèi)斯-海因里克(Johannes Heinrich)的幫助下,西爾弗成功的使用深度加強(qiáng)學(xué)習(xí)計(jì)算出了兩種撲克游戲的有效玩法。
這兩種游戲之一是“Leduc”,一款只有6張牌的簡(jiǎn)易玩法,另外一種則是德州撲克,全世界最受歡迎的撲克玩法。在 Leduc 中,他們的軟件達(dá)到了納什均衡,博弈論中的最優(yōu)反應(yīng)。在德州撲克中,這軟件達(dá)到了高級(jí)玩家的水準(zhǔn)。
在此同時(shí),一組由牛津大學(xué)以及谷歌 DeepMind 的研究員組成的團(tuán)隊(duì),把他們的注意力轉(zhuǎn)向了兩款魔幻卡牌游戲:萬(wàn)智牌和爐石傳說(shuō)。在這兩款游戲中,玩家使用代表各種不同的魔法,武器,以及怪物的牌來(lái)攻擊對(duì)手。
目前,此項(xiàng)目還處于初期。這個(gè)團(tuán)隊(duì)僅僅在訓(xùn)練他們的神經(jīng)網(wǎng)絡(luò)如何理解每張卡牌。他們將使用有結(jié)構(gòu)方式,例如通過(guò)顏色或數(shù)字,以及無(wú)結(jié)構(gòu)方式,例如通過(guò)每張牌的文字,來(lái)理解卡牌。
很顯然,谷歌的人工智能團(tuán)隊(duì)還沒(méi)有結(jié)束他們制造超人類游戲機(jī)器的道路。
麻省理工科技評(píng)論傾力打造:DeepTech深科技(公眾號(hào):mit-tr)
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。