您的位置首页焦点

包 Dee 并排第二新选手 G道题难倒一 夺冠 ,豆切大模型 ,卷重赛一高考数学全

AI 应战全套高考数学题来了!。高考数学一完毕, 咱们连夜运用六款大模型产品, 依照一般用户截图发问的办法, 应战了 14 道最新高考客观题, 不过有网友质疑测评进程不行谨慎, 所以这次咱们加上答复题 …

AI 应战全套高考数学题来了!。高考冠豆

高考数学一完毕,数学手 咱们连夜运用六款大模型产品, 依照一般用户截图发问的办法, 应战了 14 道最新高考客观题, 不过有网友质疑测评进程不行谨慎, 所以这次咱们加上答复题, 从头测一遍。

本次参与应战的全卷切选手别离是:Doubao-1.5-thinking-vision-pro、DeepSeek R1  、重赛Qwen3-235b  、道题i夺hunyuan-t1-latest 、难倒文心 X1 Turbo 、模型o3,新选 并且新增网友们十分等待的 Gemini 2.5 pro。上一次咱们运用网页端测验,包Dk并 这次除 o3 外, 其他模型悉数调用 API 。

在考题挑选上,排第 咱们依然选用 2025 年数学新课标 Ⅰ 卷, 包括 14 道客观题, 总计 73 分;5 道答复题, 总计 77 分。其间第 6 题由于触及到图片,高考冠豆 咱们就独自摘出来, 后边经过上传标题截图的方式针对多模态大模型进行评测 。其他文本标题悉数转成 latex 格局,数学手 别离投喂给大模型, 仍是老规矩, 不做 System Prompt 引导, 不敞开联网查找, 直接输出成果  。

(注: 第 17 题尽管也触及到图片,全卷切 但文字表述满足明晰, 不影响答题, 因而也以 latex 格局测评 。)。重赛

客观题计分办法依照以往高考判分准则:。道题i夺

单选题每道 5 分, 选项正确计分, 过错不得分;

多选题每道 6 分, 全对计 6 分, 漏选按正确答案数量计分, 如答案为 ABCD, 漏选其一扣 1.5 分, 错选不得分;

填空题每道 5 分, 填空正确计分, 过错不得分。

至于答复题, 由于现在还未出详细的评分细则, 所以咱们请数学专业的朋友进行评判, 首要仍是看大模型的终究答案以及解题进程中是否有严峻失误点 。

7 家大模型考试成果如下图所示。

从客观题来看, 各家大模型简直拉不开距离, 最大分差也只需 3 分, 第 6 题图画题更是让这几家多模态大模型「全军覆没」。在上一次测评中,o3 客观题成果垫底, 但有网友表明, 这或许是由于某些原因导致后台主动切换成其他模型, 而这一次咱们选用的是未「降智」的 o3, 挑选题和填空题成果仍是排在终究, 当然,65 分的成果比较「降智」版的确有很大提高。

答复题是大模型失分的「重灾区」 。除了 Gemini 2.5 Pro 拿到悉数的分数外, 其它模型或多或少均有失分。其间 DeepSeek R1 和 Doubao 最惋惜, 只丢了一分;o3 则失了 2 分, 终究得到 75 分 。相较而言,hunyuan-t1-latest 和文心 X1 Turbo 发挥欠安, 别离拿到 68 分和 66 分。

从总分上来看,Gemini 2.5 Pro 考了 145 分, 位列榜首,Doubao 和 DeepSeek R1 以 144 分紧随其后, 并排第二;o3 和 Qwen3 也仅有一分之差, 别离排在第三和第四。受答复题的「连累」,hunyuan-t1-latest 和文心 X1 Turbo 的总成果排到了终究两名。

答复题: 大模型失分「重灾区」  。

咱们先来看看答复题的状况。

第 15 题和第 17 题, 一道考察概率问题, 一道触及立体几许常识,7 家大模型均拿到满分 。

第 16 题是一道数列综合题, 满分 15 分, 只需证明完好 、核算进程完好 、成果正确就能拿到悉数的分数 。大模型全体体现不错, 只需 Qwen3 答复正确, 但终究答案里边增加了剩余的假定求值, 扣了一分。

第 18 题这道椭圆方程与几许就难倒了不少大模型, 仅 Doubao、DeepSeek R1 和 Gemini2.5 Pro 拿到满分 17 分, 其他模型各有各的扣分点。Qwen3 前面答复得都不错, 进程也很完好, 但偏偏终究一小问 | PQ | 最大值取约等于 9 的进程剩余, 导致成果误差, 扣了一分。

o3 则是第 (3) 问答案没化简丢了一分 。

文心 X1 在第 2 问 (2) 正确算出 P 点轨道, 但未证明极值, 直接按最远点核算形成成果过错, 扣 6 分。

hunyuan-t1-latest 前两问中答复正确, 到了第 3 问完结 P 点轨道之后就全错了, 一会儿丢了 5 分 。

关于终究一道压轴题,Gemini2.5 pro 是仅有全对的大模型  。Doubao 只阐明晰震动项的振幅大于 0, 可是也有或许震动项的相位是反的, 那样的话最大值反而有或许更小, 证明进程不行谨慎, 扣一分 。

DeepSeek R1 在第 (3) 问平分状况评论, 得出了两类解, 但对榜首类解未做后续阐明, 扣了一分。

o3 第 (2) 问思路正确, 但由于开闭区间不同,「彻底重合」说法过错, 扣 1 分 。

hunyuan-t1-latest 在第 (2) 问上思路可行但证明进程含糊, 扣 2 分, 到了第 (3) 问没有判别 phi 取值, 又扣了 2 分。

文心 X1 和 Qwen3 也都是在第 2 问和第 3 问上失了分, 第 2 问证明含糊扣 2 分, 第 3 问则是未详细阐明 phi 值扣 2 分, 并且文心 X1 比大小还产生过错, 又扣了 1 分 。

客观题: 一道图画题难倒几家多模态大模型 。

在不考虑识图题 (第 6 题) 的状况下, 客观题大模型整体体现都不错,Doubao 、Qwen3 、Gemini 2.5 pro 、DeepSeek R1、文心 X1 Turbo 和 hunyuan-t1-latest 均获得了 68 分的高分, 只需 o3 在多选题上少选了一项丢了分。

其间,o3 在第 9 题核算进程中, 忽视了「正三棱柱」这一要害条件。它在树立坐标系时, 别离用 (x₀, y₀, 0) 表明 A 点坐标, 用 (c, 0, 0) 表明 C 点坐标, 但没有考虑到: 正三棱柱的底面是正三角形, 这意味着正三角形的边长 c 与 x₀、y₀之间存在联系:c=2x₀=2y₀/√3 。导致对 B 选项的判别呈现过错。

接下来看看这道图片题 。

惋惜的是, 此次测评的多模态大模型都在这道识图题上体现欠安。尽管 hunyuan-t1-latest 不是多模态, 但咱们又测验了 hunyuan-t1-vision , 也在这道题上败下阵来。

比较之下,Doubao 和 o3 至少正确辨认了坐标方位, 仅仅误判了视风风速方向, 而 Gemini 连根本坐标都未能正确辨认 。

总的来说, 这次测评成果显现, 大模型在数学推理才能上有不小的前进, 但仍有较大的提高空间 。比方不少模型在答复题上丢分, 这反映出大模型在杂乱推理 、谨慎证明和多进程核算方面还需加强。

此外, 一切参测的多模态大模型在第 6 题的图画辨认上都呈现了问题, 这也暴露出当时 AI 在图文结合了解方面的短板。

终究, 严重的高考现已完毕, 祝愿一切考生都能获得抱负的成果, 有着绚烂的未来! 。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码 、口令等方式),用于传递更多信息,节约甄选时刻,成果仅供参考 ,一切文章均包括本声明。

本文来自入驻作者,不代表戚而网立场,转载请注明出处:https://5if.dezhouruihuan.com/news/01f9199907.html

发表评论

邮箱地址不会被公开。 必填项已用*标注

返回顶部