达摩院新基准亮剑:多模态大模型数学题集体‘不及格’
2025-05-23
达摩院推出新基准VCBench,专门评估多模态AI模型在依赖视觉的小学数学题上的推理能力。测试显示,包括Qwen-VL-Max、Gemini2.0等顶尖闭源模型的准确率均未突破50%,远低于人类93.3%的水平。分析指出,大模型在视觉感知、几何推理等基础能力上存在明显短板,尤其在跨图像关联推理方面表现薄弱,依赖单图优化的情况显著。该基准揭示了当前多模态AI技术在基础视觉理解与逻辑整合上的不足。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表希财网官方立场,不构成投资建议。如需阅读详细说明,请点击此处
