多模态AI视频推理大考全军覆没!腾讯新测试暴露技术短板
2025-05-29
腾讯ARC Lab和香港城市大学推出新的视频推理Benchmark——Video-Holmes,测试结果显示所有多模态大模型在复杂视频推理任务中表现不及格,准确率普遍低于50%。该Benchmark通过设计需整合多线索的推理问题(如分析凶案动机、时间因果等),暴露了现有模型在逻辑串联线索和关键信息提取上的不足。尽管部分推理专用模型表现稍优,但整体技术瓶颈明显。测试数据、代码及论文已开源,为行业提供了一个评估复杂推理能力的新工具。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表希财网官方立场,不构成投资建议。如需阅读详细说明,请点击此处
