FSICFR 或者 CFRM 算法训练后如何应用于实际的游戏中?

目前 Lair Dice (1dice vs 1 dice)的游戏, 使用 FSICFR 训练了一个策略概率分布的 Information Set. 发现不知道怎么应用到游戏之中了, 我碰到的问题如下:

  1. 选择相应的游戏回合的 next move 中的最大概率, 每次选择最大概率的 next move (这些最大概率的 next move 都是有先觉条件的--predetermined chance outcome) 效果不是太好, 只能避免 stupid 的走法而已(例如自己有 1 个 2 的情况下不会抓对方叫 1 个 2)

  2. 如何实时更新这个 Information Set 里面的概率? 如第 1 点, 目前只是引用 next move 中的最大概率来使用这个训练好的 information Set.

本人是半路出家, 全靠自学, 理论基础较差, 希望各位高手, 有点耐心, 不吝赐教。
先谢谢了。


本文地址:https://www.6aiq.com/article/1565664047002
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出