101.dev 社区
ppo
话题
回复
浏览量
活动
使用 PPO 算法进行 RLHF 的 N 步实现细节
Hugging Face
rlhf
,
ppo
0
1021
2023 年11 月 16 日