多模态AI物理推理能力大考:头部模型集体不及格,人类仍占绝对优势
2025-05-28
PhyX团队发布首个针对多模态大模型物理推理能力的基准测试,结果显示包括GPT-4o mini在内的16个主流模型在物理推理测试中表现普遍不佳,最高准确率仅45.8%,远低于人类75.6%的水平。测试涵盖力学、电磁等六大物理学科,暴露出模型在图像感知、知识储备和逻辑推理方面的系统性缺陷,尤其在高阶物理推理任务中准确率不足30%。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表希财网官方立场,不构成投资建议。如需阅读详细说明,请点击此处
