最強自學選手怎樣煉成?視頻回顧AlphaGo Zero五大亮點 Arxiv Insights

  每週精選一篇油管頻道 Arxiv Insights 視頻

  翻譯 | 劉斌 校對|餘杭 整理|張翼飛

  雷鋒網按:AlphaGo和AlphaGo Zero傻傻分不清楚?今天雷鋒網獨家譯製視頻How AlphaGo Zero works 帶大家回顧AlphaGo Zero的五大亮點。

  

  相比以前的阿法狗版本,AlphaGo Zero完全自主訓練。這意味著不需要利用人類專業選手的下棋數據,它直接通過圍棋對弈進行學習。

  以前的方法選用了大量人工定義的圍棋特徵,新的方法沒有選用這些特徵,而是直接從棋盤狀態中進行學習。

  這篇論文從標準的卷集神經網絡轉向了殘差網絡,筆者認為是Resnet.網絡。

  這個網絡從原有的兩個不同的策略網絡和評價網絡改為組合成一個網絡,這個網絡實現了原有兩個網絡的功能。

  新版本放棄了蒙特卡羅方法,改為採用簡單的兩階段搜索方法,並將這種方法應用於這個網絡上,進行局面預測和進行有效的下子。

  

  不用圍棋特徵,直接在下棋中學習

  首先,我們先介紹一下圍棋中的棋盤位置。棋盤由19*19的方格組成,這樣就有19*19個位置,每個位置上可以放置白子,也可以放黑子,還可以什麼都不放。DeepMind團隊創建了一個單獨的特徵映射,這個映射對於黑子和白子都是單獨創建的,這就意味著對於棋盤上所有的白子會得到19*19的二進制矩陣。

  如果位置上有白子 矩陣對應的元素是1;如果棋盤位置上沒有白子 對應矩陣元素就是0。黑子的映射矩陣,也是同樣的結果。如果棋盤位置上有黑子,對應矩陣元素是1。如果沒有黑子,對應矩陣元素是0。

  這樣這兩個矩陣就表示了當前的棋盤位置,同樣AlphaGo Zero這篇論文引入了其他特徵面來表示,過去的7步的棋盤狀態以便可以將棋盤的過去狀態引入。

  不再用標準卷積結構,採用殘差網絡

  新版本的AlphaGo Zero放棄了標準卷積結構,轉而採用殘差網絡。這樣就意味著在每一層,有一條直達路徑可以直接從輸入到輸出,中間沒有經過卷積操作。這樣做的主要原因是——殘差連接工作效果允許梯度信號 ,實際上這種連接直接通過網絡層。如果在早期網絡訓練過程中卷積網絡很難進行有效的工作,這時候仍然進行有效的學習數據通過這些網絡層,以便可以調節其他層。

  因此,將棋盤表示作為輸入,通過殘差網絡得到特徵向量並從這些向量中需要得到兩件事情: 第一件事是評價函數,評價函數很簡單,是一個0和1之間的整數。這個數字表示當前局面贏的概率,這個網絡的第二部分是策略向量,這個向量實際上是一個概率分佈,這個分佈給出所有可能下子行為的概率。在現有的局面下顯然人們需要的是訓練系統使得可以做出較好的下子行為,也就是整個棋盤表示需要選擇更高概率去下出好棋,以及更低的概率下出壞棋。以上就是整個系統的訓練過程。

  放棄蒙特卡羅方法,轉向簡單的兩階段搜索方法

  訓練分為兩階段進行:第一階段利用職業選手的數據集進行監督學習,第二階段訓練好的網絡開始進行自我學習。而新版本的AlphaGo Zero系統不用數據集不利用任何職業選手的棋譜,完全通過自我對弈。

  論文中給出了非常有趣的圖,這個圖展示了不同版本AlphaGo的性能。我們可以看到,亮藍色是贏得李世石的版本。最左邊的柱狀圖最低,因為這張圖表示了沒有采用蒙特卡洛方法可以取得差的結果。

  如果採用這個訓練好的網絡,如果只採用這個網絡一次,將棋盤狀態輸入網絡,從對策向量中,你得到最好的下子方案,而不用做其他的事情。

  從卷積網絡切換到殘差網絡後,我們可以看到,左圖柱狀體是殘差網絡,右邊是原始的網絡,紅色柱體是利用卷積神經網絡組合評價函數和策略向量的結果。切換成殘差網絡後得到了很大提升,把原始論文中的卷積神經網絡切換成殘差網絡之後也會得到同樣的提升。同時組合評價函數和對策向量,我們可以看到紫色的柱狀體,這也是最終系統的性能結果。

《更多精彩内容,按讚追蹤Gooread·精選!》
喜歡這篇文章嗎?立刻分享出去讓更多人知道~

    相關閱讀


您可能感興趣