阿爾法首次復(fù)盤人機大戰(zhàn) 自評等級分遠超柯潔

?？诰W(wǎng)　http://mmkcvlj.cn　時間：2016-03-31 07:03

　　“神之一手”的背后

　　AlphaGo系統(tǒng)并非無懈可擊，但是，漏洞并不是所謂的模仿棋、打劫等等。它的漏洞體現(xiàn)在李世石贏得比賽的第四盤棋，AlphaGo取得巨大進步的價值模塊出現(xiàn)了瑕疵，這也是AlphaGo在5局棋中唯一的一次漏洞，也是唯一的一盤失利。

　　在第四盤棋中，開局之后很快就幾陷絕境中的李世石，弈出了被來自中國的世界冠軍古力成為“神之一手”的白78手，凌空一挖。堅韌如山的對手突然倒下，AlphaGo變得不知所措，連續(xù)出現(xiàn)低級昏招，這也成就了AlphaGo有記載的公開的第一局失利。

　　對于AlphaGo的異常表現(xiàn)，各路觀戰(zhàn)的職業(yè)高手充滿了猜測。即使是觀賽的哈薩比斯和席爾瓦也都不知道究竟發(fā)生了什么。

　　事后的分析顯示，在李世石下出第78手之前，AlphaGo自有的勝率評估一直認為自己領(lǐng)先，評估的勝率高達70%。在第78手之后，AlphaGo評估的勝率急轉(zhuǎn)直下，被李世石遙遙領(lǐng)先，之后再也沒有縮短差距。

　　為什么AlphaGo面對李世石的第78手表現(xiàn)如此差，是因為它沒有想到李世石的這手棋嗎？

　　席爾瓦揭曉了這一秘密。AlphaGo的計算體系中，的確曾經(jīng)評估過這手棋，只是在AlphaGo的評估中，李世石走那一子的概率大概是萬分之一，最終，它沒有想到李世石會這樣走，也就沒有計算李世石這樣走之后如何應(yīng)對。

　　賽后，獲勝的李世石則說，這一手在他看來是唯一的選擇。

　　AlphaGo背后的蒙特卡洛樹搜索依賴的策略網(wǎng)絡(luò)，是根據(jù)人類對弈棋譜數(shù)據(jù)訓(xùn)練出來的模型，它很難去預(yù)測白78手這樣的所謂手筋妙招，也就很難判斷基于這一步繼續(xù)往下搜索之后的勝負狀態(tài)。

　　這就是AlphaGo在這5盤對局中表現(xiàn)出的唯一破綻，也是目前人類智慧還領(lǐng)先于AlphaGo背后的大數(shù)據(jù)驅(qū)動的通用人工智能（Data-driven Artificial General Intelligence）的地方。

　　人工智能已然無敵？

　　在此次大賽之前，多數(shù)來自職業(yè)圍棋界的棋手包括李世石自己都認為，李世石會輕松取勝。但是，DeepMind團隊卻信心滿滿。另一位DeepMind團隊的主力成員也曾經(jīng)在UCL介紹AlphaGo的進展，在展望與李世石的比賽時，他曾就篤定地預(yù)言，AlphaGo會贏。

　　當有人問及從去年10月戰(zhàn)勝梵麾，到今年3月對陣李世石，半年時間當中， AlphaGo究竟有哪些方面的提升時，席爾瓦簡要回答說：“我們在系統(tǒng)的每一個模型上盡可能推進效果極致，尤其在價值網(wǎng)絡(luò)上獲得了很大的提升。訓(xùn)練價值網(wǎng)絡(luò)的目標勝率除了通過自我對弈的結(jié)果外，我們還使用了搜索策略去盡可能逼近理論的勝率。”

　　直觀地說，3月版本的AlphaGo比半年前的水平大概是讓4子——讓對方先占據(jù)4個星位！

　　在戰(zhàn)勝李世石之后，中國、韓國、日本許多的職業(yè)棋手，包括李世石本人都希望能夠再與AlphaGo一戰(zhàn)。

　　按照等級分排名，AlphaGo僅次于中國的世界冠軍柯潔，排名世界第二。而席爾瓦透露，AlphaGo的最新版本自我估分在4500左右，遠遠超出現(xiàn)在3600多的柯潔，實力水平大約在13段左右，人類選手中已然無敵！

　　AlphaGo為什么會有這么強勁的表現(xiàn)？在講座當中，席爾瓦部分地復(fù)述和解釋了今年1月《Nature》上發(fā)表的論文，講述了人工智能的基本原理以及AlphaGo的技術(shù)框架。

　　對于人工智能來說，圍棋游戲的難度在于，決策空間實在太大。決策（Decision Making）是人工智能的關(guān)鍵要素，使得機器能夠在人類的世界中發(fā)揮作用。

　　在圍棋以及任何游戲中，一次決策往往使得游戲更新到了一個新的局面，于是影響到了接下來的決策，一直到最終游戲的勝負。人工智能的關(guān)鍵就是在決策空間中搜索達到最大效益的路徑，最終體現(xiàn)在當前決策中。

　　圍棋棋盤上棋子可能的組合方式的數(shù)量就有10的170次方之多，超過宇宙原子總數(shù)。在近乎無窮的決策空間中，去暴力搜索出當前棋盤的下一步最優(yōu)走子是絕對不可能的事情。

　　AlphaGo的方案是在這樣的超級空間中，做到盡可能有效的路徑選擇。其思路是一個框架加兩個模塊：解決框架是蒙特卡洛樹搜索（MonteCarlo Tree Search），兩個模塊分別是策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)。

　　策略網(wǎng)絡(luò)（Policy Network）根據(jù)當前棋盤狀態(tài)決策下一步走子，是典型的人工智能決策問題。策略網(wǎng)絡(luò)搭建的第一步，基于KGS圍棋服務(wù)器上30萬張業(yè)余選手對弈棋譜的監(jiān)督學(xué)習（SupervisedLearning），來判斷當前棋盤人類最可能的下一走子是什么。

　　第二步，是利用監(jiān)督學(xué)習得到的第一個策略網(wǎng)絡(luò)去通過自我對弈來訓(xùn)練一個加強版的策略網(wǎng)絡(luò)，學(xué)習方法是強化學(xué)習（Reinforcement Learning），自我對弈3000萬局，從人類的走子策略中進一步提升。

　　遵循策略網(wǎng)絡(luò)的判斷，在蒙特卡洛樹搜索框架下對每個棋盤狀態(tài)的采樣范圍就大大減小，這是一個搜索寬度的減小，但是由于一盤圍棋總手數(shù)可以多達250步以上，搜索的深度仍然帶來無法處理的巨大計算量，而這就由第二個模塊——價值網(wǎng)絡(luò)來解決。

　　價值網(wǎng)絡(luò)（Value Network）的功能是根據(jù)當前棋盤狀態(tài)判斷黑白子某一方的勝率，是一個人工智能預(yù)測（Prediction）問題。

　　處理預(yù)測問題的機器學(xué)習模型一般需要直接知道需要預(yù)測的真實目標是什么，比如預(yù)測第二天的天氣，或者預(yù)測用戶是否會一周內(nèi)購買某個商品，這些歷史數(shù)據(jù)都有直接的目標數(shù)據(jù)可供機器學(xué)習。而在圍棋對局中，給定的一盤棋局完全可能在歷史上就找不到哪次對弈出現(xiàn)過這樣的局面，也就不能直接得到對弈最終的勝負結(jié)果。

　　AlphaGo的解決方法是使用強化學(xué)習得到的策略網(wǎng)絡(luò)，以該棋局為起點進行大量自我對弈，并把最終的勝率記錄下來作為價值網(wǎng)絡(luò)學(xué)習的目標。

　　有了價值網(wǎng)絡(luò)，蒙特卡洛樹搜索也就不再需要一直采樣到對弈的最后，而是在適當?shù)乃阉魃疃韧Ｏ聛?，直接用價值網(wǎng)絡(luò)估計當前勝率。這樣就通過降低搜索的深度來大大減小了運算量。

　　AlphaGo整合了目前機器學(xué)習領(lǐng)域的大多數(shù)有效的學(xué)習模型，包括通過采樣來逼近最優(yōu)解的蒙特卡洛樹搜索，通過有監(jiān)督學(xué)習和強化學(xué)習訓(xùn)練來降低搜索寬度并作出走子決策的策略網(wǎng)絡(luò)，以及通過有監(jiān)督學(xué)習訓(xùn)練的降低搜索深度提前判斷勝率的價值網(wǎng)絡(luò)。?

　　作為人類棋手翹楚，33歲的職業(yè)圍棋九段高手李世石，過去15年獲得了十幾個世界冠軍頭銜，總共下了1萬盤圍棋對弈，經(jīng)過了3萬個小時訓(xùn)練，每秒可以搜索10個走子可能。

　　但是，作為人工智能科技進步的代表，吸收了近期機器學(xué)習人工智能的最新進展，建立起了全新的價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)，誕生只有兩年時間的AlphaGo，差不多經(jīng)歷了3萬小時的訓(xùn)練，每秒?yún)s可以搜索10萬個走子可能。這一刻，勝負已分。

相關(guān)鏈接：

李開復(fù)：阿爾法跌破眼鏡期待挑戰(zhàn)中國棋手

阿爾法機器人來?？诹?！能歌善舞還能做高難度動作

聶衛(wèi)平:阿爾法狗后不敢再預(yù)測四川能贏CBA很刺激

[來源：新浪體育] [作者：] [編輯：符德銘]

版權(quán)聲明：

·凡注明來源為“海口網(wǎng)”的所有文字、圖片、音視頻、美術(shù)設(shè)計等作品，版權(quán)均屬?？诰W(wǎng)所有。未經(jīng)本網(wǎng)書面授權(quán)，不得進行一切形式的下載、轉(zhuǎn)載或建立鏡像。

·凡注明為其它來源的信息，均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點和對其真實性負責。