多模态AI空间智能大考:多数模型不及格,o3仅41%正确率
2025-06-11
MMSI-Bench是由多家高校及实验室联合开发的多图像空间智能评测基准,针对多模态大模型在空间推理能力上的短板进行测试。测试结果显示,包括OpenAI o3在内的34个主流模型平均准确率不足41%,多数开源模型甚至低于30%,远低于人类97.2%的水平。测试覆盖多图像空间位置、运动、属性等10类任务,揭示当前模型在跨图像推理、场景重建、空间逻辑等方面存在显著缺陷,尤其开源模型与商业模型差距明显。该基准采用真实场景数据,提供完整推理过程分析,为提升多模态AI空间智能提供重要参考。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表希财网官方立场,不构成投资建议。如需阅读详细说明,请点击此处
