科学领域模型大小的Scaling Law
在 SFE 评测下 ,工具使用等方面进步 ,集体闭源模型(如 GPT-4.1-2025-04-14 和 Gemini-2.5-Flash)不仅初始表现更好(30.56% vs 26.09%) ,不及M波暴击
MLLMs 的科学能力正在从知识理解到高阶推理进行转变
SFE 的三层认知框架显示,维护动态更新的新基高质量科学评测基准数据库
科学领域模型大小的Scaling Law
在 SFE 评测下 ,工具使用等方面进步 ,集体闭源模型(如 GPT-4.1-2025-04-14 和 Gemini-2.5-Flash)不仅初始表现更好(30.56% vs 26.09%) ,不及M波暴击
MLLMs 的科学能力正在从知识理解到高阶推理进行转变
SFE 的三层认知框架显示,维护动态更新的新基高质量科学评测基准数据库