AI,無(wú)師自通,自學(xué)成才?
——新版“阿法狗”無(wú)需人類(lèi)指導(dǎo)迅速成為圍棋霸主
人工智能(AI)領(lǐng)域再次出現(xiàn)驚人突破——據(jù)英國(guó)《自然》雜志近日發(fā)表的論文報(bào)道,一款新版的“阿法狗”(AlphaGo)計(jì)算機(jī)程序能夠從空白狀態(tài)起,在不需要任何人類(lèi)棋譜輸入的條件下,自學(xué)圍棋,無(wú)師自通,自學(xué)成才。
這款新程序名叫“阿法元”(AlphaGo Zero),其以100比0的不敗戰(zhàn)績(jī),狠狠打擊了曾書(shū)寫(xiě)歷史的舊版“阿法狗”。
實(shí)力,“阿法狗”的輝煌戰(zhàn)績(jī)
人工智能“阿法狗”出自谷歌旗下深度思維(DeepMind)公司。最早在2016年1月,《自然》雜志以封面位置報(bào)道該程序在和所有其他圍棋程序的對(duì)抗中獲得了99.8%的勝率,并且以5∶0的成績(jī)打敗了歐洲圍棋冠軍。
隨后同年3月,“阿法狗”挑戰(zhàn)世界圍棋冠軍李世石,經(jīng)五局鏖戰(zhàn),人類(lèi)1∶4不敵人工智能,引發(fā)巨大轟動(dòng)。人們的震驚源于在圍棋19×19棋盤(pán)上,一步甚至?xí)袔装俜N走法,傳統(tǒng)的人工智能算法難以估計(jì)局面和下子。
但“阿法狗”仍在積攢實(shí)力。今年1月,一個(gè)神秘賬號(hào)Master公布自己正是“阿法狗”新版。該賬號(hào)在知名圍棋平臺(tái)上先后挑戰(zhàn)柯潔、樸廷桓和井山裕太等頂級(jí)高手,豪取勝利,隨后戰(zhàn)贏“棋圣”聶衛(wèi)平,直至60盤(pán)時(shí)自爆身份,決勝收官。
3天,“阿法元”的無(wú)師自通
此次在最新論文中,英國(guó)倫敦深度思維公司“阿法狗”項(xiàng)目的主要負(fù)責(zé)人戴維·西爾弗、戴密斯·哈薩比斯及其同事,報(bào)告了新版“阿法狗”軟件——“阿法元”。
“阿法元”最引人注目之處在于其無(wú)師自通的本領(lǐng)。其學(xué)習(xí)從“零”開(kāi)始,單純基于與自己的對(duì)弈,不需要任何歷史棋譜的指引,也不需要任何人類(lèi)經(jīng)驗(yàn)的點(diǎn)撥。
對(duì)于這個(gè)新軟件,人類(lèi)的輸入僅僅限于一張棋盤(pán)和一副棋子,沒(méi)有任何人類(lèi)數(shù)據(jù)參與?!鞍⒎ㄔ敝挥玫搅艘粡埳窠?jīng)網(wǎng)絡(luò),這張網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練,專(zhuān)門(mén)預(yù)測(cè)程序自身的棋步和棋局的贏家,讓“阿法元”在每次自我對(duì)弈中進(jìn)步。
通過(guò)3天的訓(xùn)練——包括近500萬(wàn)局自我對(duì)弈——“阿法元”已能夠超越人類(lèi)并打敗之前的“阿法狗”版本。戴維·西爾弗表示,“阿法元”遠(yuǎn)比“阿法狗”強(qiáng)大,它已不再為人類(lèi)的知識(shí)所限,而能夠自行發(fā)現(xiàn)新知識(shí)。
擺脫了人類(lèi)經(jīng)驗(yàn)的輔助和依賴(lài),人工智能竟然變得更強(qiáng)!在“阿法元”嶄露頭角后,人們揣測(cè):難道我們?nèi)祟?lèi)還耽誤“阿法狗”了?
震驚,AI的獨(dú)立發(fā)現(xiàn)
其實(shí),人工智能的最大挑戰(zhàn)之一,即是研發(fā)一種能從“零”開(kāi)始、以超人類(lèi)的水平學(xué)習(xí)復(fù)雜概念的算法。
在去年3月那場(chǎng)世所矚目的比賽中,“阿法狗”軟件打敗了人類(lèi)圍棋世界冠軍。當(dāng)時(shí)的這款圍棋程序,是利用價(jià)值網(wǎng)絡(luò)去計(jì)算局面,用策略網(wǎng)絡(luò)去選擇下子。
但為了贏得這場(chǎng)人機(jī)大戰(zhàn),科學(xué)家團(tuán)隊(duì)在訓(xùn)練“阿法狗”時(shí),同時(shí)用到了監(jiān)督式學(xué)習(xí)(基于上百萬(wàn)種人類(lèi)專(zhuān)業(yè)選手的下棋步驟)和基于自我對(duì)弈的強(qiáng)化學(xué)習(xí)。舊“阿法狗”訓(xùn)練過(guò)程長(zhǎng)達(dá)幾個(gè)月,用到多臺(tái)機(jī)器和48個(gè)TPU(神經(jīng)網(wǎng)絡(luò)訓(xùn)練所需的專(zhuān)業(yè)芯片)。
而此次,據(jù)研究團(tuán)隊(duì)介紹,新程序“阿法元”只使用了一臺(tái)機(jī)器和4個(gè)TPU。
在“阿法狗”之前,最成功的圍棋程序僅能達(dá)到人類(lèi)業(yè)余選手的程度,還不能在不讓子的情況下和專(zhuān)業(yè)賽手一較高下,原本人們認(rèn)為,至少要10年后人工智能才有可能達(dá)到這一成就。但“阿法狗”的橫空出世改寫(xiě)了預(yù)言。而在其問(wèn)世不足兩年的時(shí)間里,“阿法元”再次刷新人們的認(rèn)知——隨著程序訓(xùn)練的進(jìn)行,人工智能已獨(dú)立發(fā)現(xiàn)了人類(lèi)用幾千年才總結(jié)出來(lái)的圍棋規(guī)則,還建立了新的策略,可以說(shuō),人工智能已經(jīng)為這個(gè)古老的游戲,帶來(lái)全新見(jiàn)解。記者張夢(mèng)然
?
?
相關(guān)鏈接:
智能音樂(lè)機(jī)器人“多才多藝” 能否成為下一個(gè)“阿法狗”??
·凡注明來(lái)源為“??诰W(wǎng)”的所有文字、圖片、音視頻、美術(shù)設(shè)計(jì)等作品,版權(quán)均屬??诰W(wǎng)所有。未經(jīng)本網(wǎng)書(shū)面授權(quán),不得進(jìn)行一切形式的下載、轉(zhuǎn)載或建立鏡像。
·凡注明為其它來(lái)源的信息,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
網(wǎng)絡(luò)內(nèi)容從業(yè)人員違法違規(guī)行為舉報(bào)郵箱:jb66822333@126.com