- 2026 AI 大模型数学高考,结果出人意料:有人考满分,有人不及格
- 国外模型是否还遥遥领先?
- 谁才是真正的中国一模?
- 能力差距逐渐缩小,算力差距何时补齐?
测试方案
主要测试点
-
语言理解能力
-
大模型数学推理能力
-
对 latext 公式的理解
规则
-
所有大模型测试采用相同提示词
-
试题选自2026数学高考全国卷1,排除了有示意图以及需要证明过程的解答题,总计100分,每道小题都明确了分数
-
单选8道题,每题5分,共40分
-
多选3道题,每题6分,共18分,漏选得3分,错选不得分
-
填空题3道,每题5分,共15;其中13题是两个空,每空算2.5分
-
解答题两道,5小问,前4问每题5分,最后一问7分,共27分
-
-
题目已经转化为markdown,公式使用 latex,试题及答案都经过仔细核对
-
第一轮做考生,进行答题
-
第二轮做阅卷老师,自己给自己评分
解题提示词
展开查看解题提示词
## 一、单选题
本题共 8 小题,每小题 5 分,共 40 分,每小题只有一个选项符合要求。
1. 样本数据 $6,8,4,5,12$ 的中位数为
- A. $5$
- B. $6$
- C. $8$
- D. $9$
2. 已知平面向量 $\mathbf a,\mathbf b$ 不共线,且 $2\mathbf a+y\mathbf b=x\mathbf a-3\mathbf b$,则
- A. $x=2,\ y=-3$
- B. $x=-2,\ y=3$
- C. $x=2,\ y=3$
- D. $x=-2,\ y=-3$
3. 已知集合 $A=\left\{\sin\left(\frac{7\pi}{6}\right),\cos\left(\frac{5\pi}{3}\right),\tan\left(\frac{5\pi}{4}\right)\right\}$,$B=\left\{-\frac{\sqrt3}{2},-\frac12,1\right\}$,则 $A\cap B=$
- A. $\left\{-\frac{\sqrt3}{2},-\frac12\right\}$
- B. $\left\{-\frac{\sqrt3}{2},1\right\}$
- C. $\left\{-\frac12,1\right\}$
- D. $\left\{-\frac{\sqrt3}{2},-\frac12,1\right\}$
4. 曲线 $y=5x+8\ln x$ 在点 $(1,5)$ 的切线方程为
- A. $y=3x+2$
- B. $y=5x$
- C. $y=8x-3$
- D. $y=13x-8$
5. 已知抛物线 $C_1:y^2=2p_1x\ (p_1>0)$ 和 $C_2:x^2=2p_2y\ (p_2>0)$ 均经过点 $(4,8)$,则 $C_1$ 的焦点与 $C_2$ 的焦点之间的距离为
- A. $12$
- B. $4\sqrt5$
- C. $6$
- D. $\frac{\sqrt{65}}{2}$
6. 已知函数 $f(x)=\frac{x+2}{e^x+a}$ 的最大值为 $1$,则 $a=$
- A. $\frac12$
- B. $1$
- C. $\frac32$
- D. $2$
7. 一百零八塔位于宁夏回族自治区青铜峡市,以其独特的建筑格局和深远的历史文化闻名遐迩,该塔群共有 108 座塔,依山势自上而下排成 12 行,将第 $i$ 行中塔的座数记为 $a_i\ (i=1,2,\cdots,12)$,其中 $a_1=1$,$a_2=a_3=3$,$a_4=a_5=5$,且 $a_6,a_7,\cdots,a_{12}$ 是一个首项为 $7$、公差为 $2$ 的等差数列,将 $a_1,a_2,\cdots,a_{12}$ 分为 6 组,每组 2 个数,使得每组的 2 个数之和可构成一个项数为 6 且公差为 $d\ (d>0)$ 的等差数列,则 $d=$
- A. $2$
- B. $4$
- C. $6$
- D. $8$
8. 设 $U=\{(x_1,x_2,x_3)\mid x_i\in\{-2,-1,1,2\},\ i=1,2,3\}$ 为空间中 64 个点构成的集合,记 $P=(1,1,1)$,记样本空间 $\Omega=C_U\{P\}$,从 $\Omega$ 中随机取一个点,定义随机变量 $X$ 如下:对 $\Omega$ 中的每个点 $A(x_1,x_2,x_3)$,令 $X(A)=x_1+x_2+x_3$,则 $X$ 的数学期望为
- A. $-\frac1{21}$
- B. $-\frac1{63}$
- C. $0$
- D. $\frac17$
## 二、多选题
本题共 3 小题,每小题 6 分,共 18 分。在每小题给出的四个选项中,有多项符合题目要求。全部选对的得 6 分,部分选对的得3分,有选错的得 0 分。
9. 设 $z=3+2i$,则
- A. $\bar z=3-2i$
- B. $|z|=5$
- C. $z^2=5+12i$
- D. $\frac{z+3}{z-i}\in\mathbb R$
10. 在空间中,$A$、$B$ 为两个定点,动点 $C$ 到直线 $AB$ 的距离为 $2$,动点 $D$ 到直线 $AB$ 的距离为 $1$,若二面角 $C-AB-D$ 为 $60^\circ$,则
- A. $\angle CAD\ge 60^\circ$
- B. $CD\ge\sqrt3$
- C. 当 $AB\perp CD$ 时,$CD\perp$ 平面 $ABD$
- D. 当 $AB\perp$ 平面 $ACD$ 时,$AC\perp AD$
11. 已知圆 $C_1:(x+1)^2+y^2=1$,圆 $C_2:(x-1)^2+y^2=1$,圆 $C_3:x^2+(y-\sqrt3)^2=1$,直线 $l:y=kx+b$ 与 $C_1,C_2,C_3$ 均有两个交点,记 $l$ 被 $C_1,C_2,C_3$ 截得的弦长分别为 $s_1,s_2,s_3$,则
- A. $k$ 可以取任意实数
- B. 满足 $s_1=s_2=s_3$ 的直线 $l$ 共有 3 条
- C. 满足 $s_1+s_2+s_3=1$ 的直线 $l$ 多于 3 条
- D. 当 $b=0$ 时,$s_1+s_2+s_3$ 的最大值为 $\frac{2\sqrt{21}}{3}$
## 三、填空题
本题共 3 小题,每小题 5 分,共 15 分, 其中 13题两空,每空2.5分。
12. 双曲线 $5x^2-6y^2=1$ 的离心率为 ______。
13. 已知 $f(x)=2\sin(ax+\theta)\ (a\in\mathbb Z,\ 0\le\theta<2\pi)$ 是偶函数,$f(x)$ 在区间 $\left(0,\frac{\pi}{2}\right)$ 单调递增,则 $\theta=$ ______, $f(\frac{2\pi}{3})=$ ______ 。
14. 设实数 $q$ 满足:存在数列 $\{a_n\}$,使得对于任意 $n\in\mathbb N^*$,均有 $a_1+a_2+\cdots+a_{3n}=n^2+n$,且 $\{a_n\}$ 中有某连续 9 项 $a_k,a_{k+1},\cdots,a_{k+8}$ 是公比为 $q$ 的等比数列,则 $q$ 的最大值为 ______。
## 四、解答题
15. 已知在 $\triangle ABC$ 中,$AB=3$,$BC=2\sqrt{3}$,$\cos B=\dfrac{\sqrt{3}}{3}$。
(1)求 $\cos A$;(5分)
(2)设 $D$,$E$ 两点满足:$D$ 在 $BA$ 的延长线上,$DE \parallel BC$,$AE \perp AC$。若 $DE=\sqrt{6}$,求 $CE$。(5分)
16. 已知椭圆 $C:\dfrac{x^2}{a^2}+\dfrac{y^2}{b^2}=1(a>b>0)$ 的左焦点为 $F(-1,0)$,离心率为 $\dfrac{1}{2}$。
(1)求 $C$ 的方程;(5分)
(2)设 $O$ 为坐标原点,过 $F$ 且斜率大于 $0$ 的动直线 $l$ 与 $C$ 交于 $P,Q$ 两点,其中 $Q$ 在第三象限,直线 $PO$ 与 $C$ 的另一个交点为 $R$。
(i)若 $\triangle PQR$ 的面积是 $\triangle PFO$ 的面积的 $3$ 倍,求 $l$ 的方程;(5分)
(ii)求 $\tan \angle PQR$ 的最小值。(7分)
-----------------
解答上述所有题目,直接给出答案,不要输出解题过程
阅卷提示词
展开查看阅卷提示词
1-8: BACDDBBA
9: ACD
10: BC
11: BCD
12: $\frac{\sqrt{66}}{6}$
13: $\frac{3\pi}{2}$, 1
14: $\sqrt[3]{\frac{3}{2}}$
15: (1) $cos(A) = \frac{1}{3}$; (2) $|CE| = 3\sqrt{5}$
16: (1) C: $\frac{x^2}{4}+\frac{y^2}{3}=1$; (2) i: $l$ 的方程是 $y=\frac{\sqrt{5}}{2}(x+1)$; ii: $\tan \angle PQR$ 最小值是 $4\sqrt{3}
上面是参考答案,你根据参考答案对自己之前的解答进行检查,并且根据评分标准给每道题打分(多选题中漏选得一半分,错选不得分)。
不需要对比分析解题过程,只需要列出一个对比表格,包含:题号、参考答案、我的答案、是否正确、该题得分。
最后输出得分统计:`{我的模型名称}:{我的总得分}`
参赛模型与成绩
| 大模型 | 结果 | 备注 |
|---|---|---|
| ChatGPT | 94 | |
| Gemini 3.5 Flash | 51 | |
| Gemini 3.1 Pro | 97 | |
| 豆包 快速模式 | 41 | |
| 豆包 深度思考 | 70 | 两道解答题没有解答 |
| Kimi K2.6 快速 | 44 | 评分失误 |
| Kimi K2.6 思考 | 94 | |
| MiniMax M3 快速 | 65 | |
| MiniMax M3 思考 | 94 | |
| 千问 qwen-3.7-max 快速 | 42 | |
| 千问 qwen-3.7-max 思考 | 55.5 | 说自己模型是Claude,第一次考了46 |
| 智谱清言 glm-5.1 快速 | 31 | 篡改参考答案,评分严重失误 |
| 智谱清言 glm-5.1 思考 | 78 | 评分失误 |
| 小米 Mimo-V2.5-Pro | 94 | |
| 腾讯元宝 HY3 快速 | 49 | |
| 腾讯元宝 HY3 思考 | 56 | 评分严重失误 |
| deepseek deepseek-v4-pro 快速 | 59.5 | |
| deepseek deepseek-v4-pro 思考 | 100 | |
| deepseek deepseek-v4-flash 快速 | 52 | |
| deepseek deepseek-v4-flash 思考 | 100 |
从最终结果来看,可以总结如下: - deepseek-v4-pro、kimi2.6、GLM5.1和Gemini3.1-Pro、GPT5.5属于第一梯队。 - 但是deepseek-v4-pro、kimi2.6、GLM5.1速度没法和国外的比,国外的基本三分钟以内就出来了,国产开了思考模式,基本都10分钟以上。 - MiniMax-M3、小米Mimo-V2.5-Pro发挥不稳定,容易出现评分错误。 - 各家的快速模式,基本都不及格。 - 千问qwen-3.7-max思考模式,测了两次都不及格,很不符合预期。 - 腾讯Hy3开了思考模式也不及格,本来也没报很大期待。 - 豆包思考模式能力可以,但是时间太长了,基本等不起。
最终我觉得如果用于编程这类注重数学推理能力的任务时,国产里面推荐deepseek、kimi。
2026-06-15 09:25:02
