说明 背景 训练一个AI去玩百家乐。 牌堆一共有3副除开大小王的牌,AI可以记住剩余牌堆有哪些牌。 一共给100块钱,每次投注1块钱, 可以投【庄赢、闲赢、和、对子、放弃不玩】5种 赔率如下 动作 奖励 庄赢、闲赢 1 和 8 庄对子或者闲对子 5.5 其他说明 一轮等于玩1280次或者把钱输光。 测试了下如果全部投庄赢,平均1000次左右输完100块。 难点 同一个剩余牌堆S给同一个动作A,得到的reward可能是不一样的