人工智能繼續進階
——通殺棋界后,“阿法狗”走向教學
本報記者 張夢然
資料圖:柯潔對戰“阿爾法圍棋”(AlphaGo)。
今日視點
在人工智能(AI)領域,“阿法狗”(AlphaGo)是個囂張的名字。自2016年3月甫出茅廬震驚世人后,該程序妙手迭出,一路刷新紀錄。
至本月初,谷歌的AI子公司深度思維宣布“阿法狗”升級成了“阿法零”(AlphaZero),已一舉擊敗國際象棋、將棋、圍棋類三個世界冠軍級的電腦程序。
12月11日,該公司發布“阿法狗”教學工具。兩天后,團隊資深研究員、曾代AI執子的“人肉臂”黃士杰,宣布正式離開“阿法狗”,轉投深度思維其他項目。
“阿法狗”不斷升級
2016年,名為“阿法狗”的AI在和所有其他圍棋程序的對抗中獲得99.8%的勝率后,進一步學習,于當年3月挑戰人類圍棋世界冠軍。五局鏖戰,人類1∶4不敵AI,轟動一時。人們將這一成績視為彼時人工智能的巔峰之作,沒成想,這只是“阿法狗”的起步。
今年1月,一個神秘賬號Master在知名圍棋平臺上先后挑戰柯潔、樸廷桓和井山裕太等頂級高手,豪取勝利,隨后戰贏“棋圣”聶衛平,直至60盤決勝收官時自爆身份,公布自己正是“阿法狗”新版。
10月,“阿法狗”程序再次升級——“阿法元”(AlphaGo Zero)出現,其以100∶0的不敗戰績,狠狠擊敗了曾書寫歷史的舊版“阿法狗”,而且能夠從空白狀態起,在不需要任何人類棋譜輸入的條件下,無師自通,自學圍棋。
直至12月6日,深度思維再出驚人之舉:其研發的新一代“阿法零”,憑借強勁的計算資源,使其經過不到24小時的自我對弈強化學習,就接連擊敗了國際象棋、將棋、圍棋三個世界冠軍級的電腦程序,自此成了全能棋王。
“阿法零”獨孤求敗
最新出現的“阿法零”,是深度思維團隊繼“阿法元”問世之后帶給人們的又一全新算法,并稱它是“更通用版本”。
目前,“阿法零”算法可以在8個小時訓練后擊敗去年對戰李世石版本的“阿法狗”,再以4小時訓練擊敗世界頂級的國際象棋程序Stockfish;又用2小時訓練擊敗世界頂級將棋程序Elmo。
與前輩“阿法元”相比,“阿法零”有很多自己的獨到之處。首先,“阿法元”是在假設結果為贏/輸二元的情況下,對獲勝概率進行估計和優化,而“阿法零”會將平局及其他潛在結果都考慮在內,深一步估計和優化;其次,“阿法零”并不是靠轉變棋盤位置進行數據增強,它只對單一神經網絡進行維護,并不斷更新該神經網絡;最后,“阿法零”所有對弈都重復使用相同的超參數(開始學習過程之前設置值的參數,而非通過訓練得到的參數數據),因此無需額外針對特定某種棋類再進行調整。
下一步落地應用
本月11日,深度思維拿出了一套“阿法狗”教學工具。“阿法狗”團隊核心成員黃士杰在其社交媒體賬號上介紹說,該教學工具總共收錄了約6000個近代圍棋史上主要的開局變化,從23萬個人類棋譜中收集而來,而所有盤面都有“阿法狗”評估的勝率及推薦的下法。
這套教學使用的其實是神秘賬號Master那一版的“阿法狗”。但這里所有的勝率與下法,AI都思考過將近10分鐘——這意味著1000萬次模擬,而每一個開局變化,“阿法狗”都固定延伸20步棋。再加上下法,整套教學工具約有2萬個分支變化,37萬個盤面。團隊成員希望,人們能感受這套教學工具中的創新,并可從中獲益。
教學系統推出兩天后,黃士杰宣布正式告別“阿法狗”,投身公司的其他研究中。
其實早在今年5月,當“阿法狗”戰勝柯潔后,深度思維就宣布此后該程序不會再參加到人機大戰的競技中去。團隊的下一步計劃,是研發出廣泛算法以投入應用,包括給出疾病的治療方案、設法將能源消耗降低,以及發明出革命性新材料等。
現在,深度思維已與谷歌數據中心共同研發管理制冷系統的新技術,并與英國全民醫療健康系統達成合作。他們,在讓AI相關算法真實落地于應用中。
(科技日報北京12月14日電)
推薦