Tag: TRPO
All the articles with the tag "TRPO".
-
浅谈Agentic RL
这篇博客试图用最直白的语言,把从经典强化学习到今天大模型训练中用到的GRPO,一条线串起来讲清楚。如果你对RL有一点点了解但又觉得公式劝退,希望这篇文章能帮到你。
All the articles with the tag "TRPO".
这篇博客试图用最直白的语言,把从经典强化学习到今天大模型训练中用到的GRPO,一条线串起来讲清楚。如果你对RL有一点点了解但又觉得公式劝退,希望这篇文章能帮到你。