微软革新AI训练模式!强化预训练技术提升模型推理能力
2025-06-11
微软提出强化预训练(RPT)新范式,将传统AI模型的下一个token预测任务转化为强化学习推理任务。通过奖励机制提升预测准确性,实验显示其语言建模能力优于传统方法,并为后续微调提供更好基础。该技术利用海量无标注数据,解决强化学习依赖标注数据的瓶颈,但社区对其有效性和前景仍有待观察。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表希财网官方立场,不构成投资建议。如需阅读详细说明,请点击此处
