SFE评测揭示多模态AI科学能力短板,闭源模型表现更优
2025-07-09

多
多模态AI
正面
查看报告
上海人工智能实验室发布SFE评测基准,系统评估多模态大模型在科学领域的认知能力。测试显示主流多模态模型在高阶科学任务中表现不佳,综合得分仅30分左右。闭源模型(如GPT-o3、Claude-3.7)优于开源模型,但同系列模型能力持续提升。材料科学领域表现最好,天文学任务难度最高。评测指出模型推理能力进步显著,但知识理解能力提升有限,且模型规模扩大未必直接提升科学能力,需更多科学数据支撑。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表希财网官方立场,不构成投资建议。如需阅读详细说明,请点击此处
