蒙特卡洛树搜索基于大数定律原理,即在重复的试验中,随着试验次数的增加,时间的发生频率趋于一个稳定值。同样,当模拟的次数足够多,模拟后获得最佳收益的节点,就接近于理论上真实的最佳收益节点,那么这个节点所包含的行动就是当前状态下的最优选择。蒙特卡洛树搜索算法按照:选择、扩展、模拟、返回的步骤,实现对节点的探索和评估,选择最佳状态。
2024-06-10
4 下载量
微信捐赠
微信扫一扫体验