归档
在这里,可以按年份和月份回顾所有的足迹。
2026 5 篇
四月 1 篇
-
浅谈Agentic RL
这篇博客试图用最直白的语言,把从经典强化学习到今天大模型训练中用到的GRPO,一条线串起来讲清楚。如果你对RL有一点点了解但又觉得公式劝退,希望这篇文章能帮到你。
三月 2 篇
-
机试输入输出总结
力扣和真实机试不一样的点在于力扣不用处理输入输出。这里记录一下常见的几种输入输出方法。
-
算竞常用 C++ STL 用法
C++ 标准模板库 (STL) 在算法竞赛中运用极其常见,本文整理了常用容器与算法的用法与注意事项。