设置

关灯

第二百零六章 玄清杯

llout),目标和策略网络一样,但在适当牺牲走棋质量的条件下,速度要比策略网络快1000倍。
    络(vaerk),给定当前局面,估计是白胜概率大还是黑胜概率大。
    四、蒙特卡洛树搜索(reesearch),把以上这三个部分连起来,形成一个完整的系统。
    阿尔法围棋(alhago)此前的版本,结合了数百万人类围棋专家的棋谱,以及强化学习的监督学习进行了自我训练。
    alhagozero的能力则在这个基础上有了质的提升。最大的区别是,它不再需要人类数据。
    也就是说,它一开始就没有接触过人类棋谱。研发团队只是让它自由随意地在棋盘上下棋,然后进行自我博弈。
    alhagozero使用新的强化学习方法,让自己变成了老师。系统一开始甚至并不知道什么是围棋,只是从单一神经网络开始,通过神经网络强大的搜索算法,进行了自我对弈。
    随着自我博弈的增加,神经网络逐渐调整,提升预测下一步的能力,最终赢得比赛。更为厉害的是,随着训练的深入,阿尔法围棋团队发现,alhagozero还独立发现了游戏规则,并走出了新策略,为围棋这项古老游戏带
 <本章未完请点击"下一页"继续观看!>