rlhf
话题 | 回复 | 浏览量 | 活动 | |
---|---|---|---|---|
将强化学习重新引入 RLHF | 0 | 159 | 2024 年6 月 19 日 | |
使用 PPO 算法进行 RLHF 的 N 步实现细节 | 0 | 998 | 2023 年11 月 16 日 | |
TRL 正式推出,来训练你的首个 RLHF 模型吧! | 0 | 1230 | 2023 年8 月 10 日 | |
“StackLLaMA”: 用 RLHF 训练 LLaMA 的手把手教程 | 0 | 1983 | 2023 年5 月 5 日 | |
在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs | 0 | 1127 | 2023 年3 月 23 日 |