上个月,NIPS 2017召开期间,DeepMind创始人兼CEO哈萨比斯,在一个研讨会上发表了演讲。当时也是哈萨比斯首次公开解读AlphaZero。
最近,哈萨比斯这段演讲的视频全程,首次公开。
哈萨比斯在演讲中首先提到DeepMind背后的哲学,这家公司奉行的第一性原理。回顾了AlphaGo在此前比赛中的表现,特别是那些具有“独创性”的时刻。
至于最新的AlphaZero,哈萨比斯坦言结果出乎他们预料。DeepMind本来认为手动调整的国际象棋引擎Stockfish已经接近最优解,但没想到AlphaZero还是在24小时之内,通过不断地自我对弈,最终击败了Stockfish。
当然不只是击败了一个国际象棋程序,AlphaZero还横扫了日本将棋程序Shogi,以及刚刚创下佳绩的围棋程序AlphaGo Zero。
在国际象棋比赛中,AlphaZero的棋风,既不像人、也不像电脑。
哈萨比斯介绍说,AlphaZero偏爱远期的局面性弃子,没有子力的概念。AlphaZero会根据当前的局面进行判断,相较而言,如果使用了刚性规则就无法动态调整策略。人类可以向AlphaZero学习国际象棋的战略,而不是战术。
当然,哈萨比斯也没忘了问一句:人类关于国际象棋的知识是不是太有限了?