关于choose_action #3

xlyue92 · 2020-12-23T09:01:04Z

您好，请教下在for i in range(episodes): 下面，也就是第52行，model 还没开始train怎么去做choose_action里的predict？

AKIRAsamadesu · 2022-04-19T11:22:34Z

运行了300的多个周期依然没有收敛迹象，是不是memory有问题。。。

weslythisway · 2023-12-27T06:37:27Z

您好，请教下在for i in range(episodes): 下面，也就是第52行，model 还没开始train怎么去做choose_action里的predict？

還沒train的情況下系統默認每一種 action 機率基本相同，所以一開始action 就是隨機的

weslythisway · 2023-12-27T06:39:26Z

运行了300的多个周期依然没有收敛迹象，是不是memory有问题。。。

運氣問題，起始點不好就跑到local minum，多重跑幾次程式碼就有機會看到收斂

weslythisway · 2023-12-27T07:37:29Z

想請問你的train 為什麼模型只訓練當次 episode ，過去的回合不訓練??

weslythisway · 2023-12-29T01:12:44Z

比較大的問題是不是，model 在 train 的時候程式碼只用單次遊戲的資料進行訓練，並沒有把過去玩的資料一起納入訓練??

Provide feedback