西游科技（6 / 10）

设置

第二百零六章玄清杯

llout），目标和策略网络一样，但在适当牺牲走棋质量的条件下，速度要比策略网络快1000倍。
    络（vaerk），给定当前局面，估计是白胜概率大还是黑胜概率大。
    四、蒙特卡洛树搜索（reesearch），把以上这三个部分连起来，形成一个完整的系统。
    阿尔法围棋（alhago）此前的版本，结合了数百万人类围棋专家的棋谱，以及强化学习的监督学习进行了自我训练。
    alhagozero的能力则在这个基础上有了质的提升。最大的区别是，它不再需要人类数据。
    也就是说，它一开始就没有接触过人类棋谱。研发团队只是让它自由随意地在棋盘上下棋，然后进行自我博弈。
    alhagozero使用新的强化学习方法，让自己变成了老师。系统一开始甚至并不知道什么是围棋，只是从单一神经网络开始，通过神经网络强大的搜索算法，进行了自我对弈。
    随着自我博弈的增加，神经网络逐渐调整，提升预测下一步的能力，最终赢得比赛。更为厉害的是，随着训练的深入，阿尔法围棋团队发现，alhagozero还独立发现了游戏规则，并走出了新策略，为围棋这项古老游戏带
<本章未完请点击"下一页"继续观看!>

西游科技（6 / 10）

第二百零六章 玄清杯

第二百零六章玄清杯