DeepSeek工程能力首度验证:大模型图纸修改测试成绩出炉 仍存明显短板
2025-07-18

D
DeepSeek概念
强中性
查看报告
DrafterBench是首个评估大模型在土木工程图纸修改任务能力的基准测试,DeepSeek-V3-685B参与评测得分73.09分,与Claude3.5 Sonnet接近,落后于OpenAI o1。测试显示当前主流大模型虽具备基础工程任务处理能力,但整体执行精度和流程完整性仍无法满足工业一线需求,尤其在工具调用、批判性推理等环节存在明显短板。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表希财网官方立场,不构成投资建议。如需阅读详细说明,请点击此处
