多模态AI空间智能大考：多数模型不及格，o3仅41%正确率

2025-06-11

MMSI-Bench是由多家高校及实验室联合开发的多图像空间智能评测基准，针对多模态大模型在空间推理能力上的短板进行测试。测试结果显示，包括OpenAI o3在内的34个主流模型平均准确率不足41%，多数开源模型甚至低于30%，远低于人类97.2%的水平。测试覆盖多图像空间位置、运动、属性等10类任务，揭示当前模型在跨图像推理、场景重建、空间逻辑等方面存在显著缺陷，尤其开源模型与商业模型差距明显。该基准采用真实场景数据，提供完整推理过程分析，为提升多模态AI空间智能提供重要参考。

查看完整舆情解析

重要提示和声明

本页面内容由AI提炼生成，无法确保完全真实准确，不代表希财网官方立场，不构成投资建议。如需阅读详细说明，请点击此处

多模态AI空间智能大考：多数模型不及格，o3仅41%正确率

理财有风险，投资需谨慎