多模态AI长文本理解大考:46款模型集体‘挂科’
2025-05-23
MMLongBench团队发布首个多模态长文本理解测评,对46款领先模型进行基准测试。结果显示所有模型在处理128K长度任务时均未达标,暴露出OCR能力和跨模态检索能力两大技术瓶颈。测评覆盖5大任务类型16个数据集,提供8K-128K标准化输入长度评估,揭示当前多模态大模型在长文本处理上仍有显著提升空间。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表希财网官方立场,不构成投资建议。如需阅读详细说明,请点击此处
