跳转到内容
我的个人主页

想法

记录折腾、思考与一些有意思的事情。

  • 浅谈Agentic RL

    这篇博客试图用最直白的语言,把从经典强化学习到今天大模型训练中用到的GRPO,一条线串起来讲清楚。如果你对RL有一点点了解但又觉得公式劝退,希望这篇文章能帮到你。

  • 机试输入输出总结

    力扣和真实机试不一样的点在于力扣不用处理输入输出。这里记录一下常见的几种输入输出方法。

  • 算竞常用 C++ STL 用法

    C++ 标准模板库 (STL) 在算法竞赛中运用极其常见,本文整理了常用容器与算法的用法与注意事项。

  • 在威海的这几年

    记录了我在山东威海度过的美好几年时光。