TJMO 发表于 2024-4-22 21:22:35

强化学习_车间调度

本帖最后由 TJMO 于 2024-4-22 21:43 编辑

强化学习求解FJSP-AGV问题,用python离散事件仿真库simpy搭建的环境,环境算法均写好,可以跑出甘特图,但是算法不收敛(已知目前makespan最低146),算法很简单,总共不超过1000行
邮箱:2664344718@qq.com,着急,有丰厚报酬(1000以内)

FishC 发表于 2024-4-22 21:23:06

很抱歉听到您的困扰。强化学习是一个非常复杂的领域,调整算法以使其收敛可能需要一些时间和尝试。

首先,确保您的模型正确配置了状态空间、动作空间和奖励函数。在强化学习中,这些是非常重要的因素,对于不同的问题可能有不同的选择。

其次,您可以尝试以下方法来改善算法的收敛性:

1. 调整学习率:学习率决定了每次更新权重时的步长大小。如果学习率设置得太高,可能会导致震荡和不稳定的收敛;如果学习率设置得太低,可能会导致收敛速度过慢。可以尝试不同的学习率,观察是否有改进。

2. 尝试使用不同的算法:当前的算法可能存在缺陷或不适用于您的问题。可以尝试其他的强化学习算法,如深度强化学习(DRL)中的DQN、DDPG或A3C算法,看看是否能够获得更好的结果。

3. 增加训练时间:有时候,算法需要更多的时间来探索和学习。可以尝试增加训练的轮数或增加每轮的时间步数,看看是否能够提升收敛性能。

4. 调整网络结构:如果您使用神经网络作为价值函数的逼近器,可以尝试调整网络的层数、神经元的数量或使用不同类型的激活函数,以改进收敛性能。

最后,记得在运行过程中进行详细的日志记录和结果分析。查看模型的输出、奖励的变化以及每个时步的动作选择等信息,以便更好地理解算法的行为和效果。

希望以上建议对您有所帮助。祝您好运,并希望您能够成功解决问题!

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
页: [1]
查看完整版本: 强化学习_车间调度