您當(dāng)前的位置：體育新聞>體育快訊>

阿爾法首次復(fù)盤人機(jī)大戰(zhàn) 自評等級分遠(yuǎn)超柯潔

?？诰W(wǎng)　http://mmkcvlj.cn　時間：2016-03-31 07:03

　　AlphaGo之父十年磨一劍

　　似乎在一夜之間，機(jī)器選手戰(zhàn)勝了人類最頂尖圍棋選手。但是，對于席爾瓦來說，人工智能圍棋耗時十幾年，最終不過是水到渠成。

　　作為AlphaGo的幕后團(tuán)隊的技術(shù)主管，也是谷歌DeepMind團(tuán)隊最重要的科學(xué)家之一，席爾瓦還身兼UCL大學(xué)的教職，是該校計算機(jī)系的教授，教授“強(qiáng)化學(xué)習(xí)”的課程。

　　席爾瓦是在加拿大阿伯塔大學(xué)獲得博士學(xué)位，師從世界上首屈一指的“強(qiáng)化學(xué)習(xí)”大師理查德·薩頓（Richard S.Sutton）研究強(qiáng)化學(xué)習(xí)算法，后來在另一座科技圣殿美國麻省理工學(xué)院從事博士后研究。

　　在攻讀博士以及博士后工作期間，席爾瓦一直致力于強(qiáng)化學(xué)習(xí)在圍棋人工智能上的研究。到英國UCL大學(xué)計算機(jī)系執(zhí)教以后，他還經(jīng)常拿圍棋作為授課的應(yīng)用實例。??

　　席爾瓦的課程開始聽的人并非很多。三年前，我曾上過他的課程。有一次因故遲到了20分鐘，當(dāng)時的教室里仍然可以找到座位?，F(xiàn)在，隨著他加入到Deepmind團(tuán)隊，尤其是他掌舵AlphaGo項目名聲大噪，他的課程也開始廣受歡迎，遲到的人基本上只能站著聽課了。?

　　加入DeepMind之前，席爾瓦即已開始和CEO戴密斯·哈薩比斯（Demis Hassabis）共同研究強(qiáng)化學(xué)習(xí)。哈薩比斯在UCL拿到了神經(jīng)學(xué)博士學(xué)位。兩個人都癡迷于游戲，哈薩比斯少年時曾經(jīng)是英國國際象棋隊隊長，在13歲便已經(jīng)獲得國際象棋大師的頭銜，青年時自創(chuàng)游戲公司，而席爾瓦則長期對圍棋情有獨鐘。

　　2014年初，在被谷歌收購之前，DeepMind即開始與UCL洽談，希望能買斷席爾瓦的工作時間。這樣可以保留他在大學(xué)的教職的同時，還可以讓他在DeepMind全心工作。

　　加盟DeepMind之后，席爾瓦成立了20個人的AlphaGo團(tuán)隊，專門研究圍棋人工智能。匯集整個團(tuán)隊的力量，他要求在技術(shù)研發(fā)的每一個環(huán)節(jié)上都追求極致。AlphaGo團(tuán)隊成員就透露，有的智能模塊在谷歌團(tuán)隊看來已經(jīng)很完美了，但是席爾瓦卻仍認(rèn)為不及格，離完美還差很遠(yuǎn)。

　　長期專注于人工智能與圍棋項目，在技術(shù)方面追求極致，再加上勢大財雄的谷歌的團(tuán)隊配合，最終成就了AlphaGo的驟然爆發(fā)。

　　復(fù)盤谷李大戰(zhàn)

　　復(fù)盤是職業(yè)圍棋選手經(jīng)常做的一件事，他們相信總結(jié)過去一盤棋的經(jīng)驗和教訓(xùn)，可以提高自己的棋藝。

　　AlphaGo團(tuán)隊也做了復(fù)盤，通過幾張幻燈片的形式，席爾瓦復(fù)盤了這5場比賽的勝負(fù)關(guān)鍵處，而在場的聽眾被禁止拍照。

　　第一盤的勝負(fù)關(guān)鍵處是，AlphaGo執(zhí)白棋第102手打入黑空，職業(yè)高手們普遍認(rèn)為這是一招險招，看上去李世石對此也早有準(zhǔn)備。事后看，棋局的進(jìn)程卻是李世石應(yīng)對有誤，進(jìn)入到了AlphaGo的計算步調(diào)中。再下了幾手棋之后，AlphaGo已經(jīng)優(yōu)勢明顯。

　　第二盤棋的開局不久，AlphaGo就下出了職業(yè)棋手們普遍認(rèn)為不妥的一手棋。席爾瓦稱其為反人類（unhuman）一手——第37手5路肩沖。觀戰(zhàn)的多數(shù)職業(yè)高手認(rèn)為這不太成立，超出了職業(yè)高手們正常的行棋邏輯。

　　隨后的進(jìn)程，這手棋的價值逐漸閃現(xiàn)，李世石又一次輸?shù)煤翢o脾氣。

　　席爾瓦解釋道：“多數(shù)評論員都第一時間批評這一步棋，從來沒有人在這樣的情況下走出如此一著。在勝負(fù)已定之后，一些專業(yè)人士重新思考這一步，他們改口稱自己很可能也會走這一著?！?/p>

　　而在AlphaGo看來，當(dāng)時只是一步很正常的走子選擇而已。

　　對于第一盤棋和第二盤棋，許多職業(yè)圍棋選手以及媒體分析都認(rèn)為，AlphaGo逆轉(zhuǎn)取勝，但是在AlphaGo自身的價值網(wǎng)絡(luò)所做的實時勝率分析看來，自己始終處于領(lǐng)先。在AlphaGo獲勝的4盤中，AlphaGo系統(tǒng)自有的勝率評估始終都是領(lǐng)先李世石，從頭到尾壓制直到最終獲勝。

　　第三盤和第五盤，AlphaGo 都是在棋局剛開始不久，就已經(jīng)取得了明顯優(yōu)勢并持續(xù)提高勝率直到終局。與職業(yè)棋手根據(jù)經(jīng)驗所做的勝負(fù)判斷不同，AlphaGo的自有勝率評估是基于一個價值模塊，做出對棋局勝負(fù)的預(yù)計。

　　這兩種判斷截然不同。當(dāng)?shù)谖灞P右下角的爭奪錯綜復(fù)雜時，AlphaGo選擇脫先，轉(zhuǎn)而落子在其他位置。不少職業(yè)棋手認(rèn)為，AlphaGo在此犯錯并落后了，但AlphaGo的選擇卻是依據(jù)全局最優(yōu)估計而做出的。

　　以幾局的成敗論，AlphaGo的這種判斷似乎更為準(zhǔn)確。突破了職業(yè)棋手對圍棋的傳統(tǒng)的理解范疇，不再局限于棋手多年培養(yǎng)出來的圍棋直覺和套路定式，會選擇探索職業(yè)棋手正常不愿意考慮的招數(shù)。AlphaGo在人類棋譜學(xué)習(xí)的基礎(chǔ)上，還進(jìn)行了大量的自我對弈，從而研究出了一些人類從未涉及到的走法。

相關(guān)鏈接：

李開復(fù)：阿爾法跌破眼鏡期待挑戰(zhàn)中國棋手

阿爾法機(jī)器人來?？诹耍∧芨枭莆柽€能做高難度動作

聶衛(wèi)平:阿爾法狗后不敢再預(yù)測四川能贏CBA很刺激

[來源：新浪體育] [作者：] [編輯：符德銘]

版權(quán)聲明：

·凡注明來源為“?？诰W(wǎng)”的所有文字、圖片、音視頻、美術(shù)設(shè)計等作品，版權(quán)均屬海口網(wǎng)所有。未經(jīng)本網(wǎng)書面授權(quán)，不得進(jìn)行一切形式的下載、轉(zhuǎn)載或建立鏡像。

·凡注明為其它來源的信息，均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)。