强化学习算法实习生 做过一个军方背景的项目,是利用强化学习实现无人机在三维环境中的轨迹规划问题。说了一下动作空间,状态空间,用的算法,奖励函数的设计等。这个没有答的很好,对方说明了可以把连续动作离散化,虽然精度会降低,但是也可以完成任务目标网络和经验回放TD是单步更新,MC需要等回合结束后更新。应该用TD一个是动作网络,用来训练策略,输出动作,一个是评价网络,用于评估当前状态的值这道题比较简单,用动态规划就能解决,找到边界条件就容易解出。...查看更多
包含6个问题,4个回答
Q:介绍一下你的项目经历