rlhf
话题 | 回复 | 浏览量 | 活动 | |
---|---|---|---|---|
将强化学习重新引入 RLHF |
![]() |
0 | 160 | 2024 年6 月 19 日 |
使用 PPO 算法进行 RLHF 的 N 步实现细节 |
![]() |
0 | 1021 | 2023 年11 月 16 日 |
TRL 正式推出,来训练你的首个 RLHF 模型吧! |
![]() |
0 | 1255 | 2023 年8 月 10 日 |
“StackLLaMA”: 用 RLHF 训练 LLaMA 的手把手教程 |
![]() |
0 | 1988 | 2023 年5 月 5 日 |
在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs |
![]() |
0 | 1127 | 2023 年3 月 23 日 |