强化学习真能让AI推理能力突破基座限制吗?清华研究提出新质疑
2025-04-25
清华大学与上海交通大学的研究指出,当前基于RLVR的强化学习训练并未突破大模型基座的能力上限。通过数学、代码、视觉推理等跨领域实验发现,强化学习虽提升采样效率,但其正确答案均存在于基座模型中,且在大规模采样时基座模型表现反超。该研究质疑了强化学习赋予模型新推理能力的普遍认知,指出RL训练可能限制问题覆盖范围,暗示技术突破需回归基础模型革新。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表希财网官方立场,不构成投资建议。如需阅读详细说明,请点击此处
