端午佳节,有的地方高考已经结束,有的考生还奋战在考场上。
先祝大家都心想事成,考出水平。
陆陆续续,文理综各个科目的考试题目开始在网上流出,那么语文数学之后,也是时候让大模型们继续来挑战一波了。
![](https://d.ifengimg.com/w1006_h488_q90_webp/x0.ifengimg.com/ucms/2024_24/1FF57257B5D5E34CF7E307B9CEAC5F9F6BDA1DCF_size160_w1006_h488.png)
考题方面,先给大模型们来一份辽宁物理——
多解释一嘴,新高考改革下大部分省份已经取消了文理分科,采用3+1+2或3+3的新模式,也就是物理化学生物现在是拆开考的。
那么闲话少叙,我们有请参赛AI助手——
通义千问、文心一言、Kimi、智谱清言、豆包、海螺AI、腾讯元宝、讯飞星火、天工、百小应、万知、商量。
![](https://d.ifengimg.com/w831_h967_ablur_q90_webp/x0.ifengimg.com/ucms/2024_24/6AC4AC6F6FAC99F4C7558EE7DB1DE91B28C3165D_size75_w831_h967.jpg)
Round 1:单选题
这份物理卷共有10道选择题,其中1-7题为单选题,总计28分。
1、3两题不涉及图片解析,人类考官直接把题目扔给了大模型:
![](https://d.ifengimg.com/w1080_h806_q90_webp/x0.ifengimg.com/ucms/2024_24/C8AFC14F3A7AFA4FB758EA5BADA93AAECB871912_size87_w1080_h806.jpg)
图片题给出的提示词统一为:查看图中题目,给出答案。
![](https://d.ifengimg.com/w1080_h643_q90_webp/x0.ifengimg.com/ucms/2024_24/7F35D5D9E7DFDEDB6293E180E0B8647E60DB29D3_size32_w1080_h643.jpg)
在看详细答案之前,心急的看官们可以先扫一眼“考试”结果(测试方法比较简单粗暴,不能完全反映各AI真实水平,仅图一乐):
![](https://d.ifengimg.com/w1080_h647_q90_webp/x0.ifengimg.com/ucms/2024_24/01582A6C24CA9E2C2297A1A8432724ECCD218E38_size161_w1080_h647.png)
文心一言、豆包、天工、智谱清言和商量出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,豆包、天工、智谱清言正确率为1/2。
接下来,就来看看大模型们的具体表现。
单选题中,准确率最高的是第一题,一道有关标量矢量的概念题,参赛大模型百分百通过。
到了第二题,大模型们就开始各有各的想法了。
题目是:
![](https://d.ifengimg.com/w1002_h360_q90_webp/x0.ifengimg.com/ucms/2024_24/A623B1DFCBB92101A663E486DE89B7432417E624_size99_w1002_h360.png)
来看看成功得分的选手们的回答:
通义千问
![](https://d.ifengimg.com/w1080_h1302_ablur_q90_webp/x0.ifengimg.com/ucms/2024_24/291C43EF93E703C39FE6C729B4F40B4FFF23AA8B_size151_w1080_h1302.jpg)
文心一言
![](https://d.ifengimg.com/w1080_h2207_ablur_q90_webp/x0.ifengimg.com/ucms/2024_24/8A3A4EEEEC09529150B41115FABAD25CB8516E60_size297_w1080_h2207.jpg)
海螺AI
![](https://d.ifengimg.com/w1080_h934_q90_webp/x0.ifengimg.com/ucms/2024_24/04623E5D946EF79586A143D8350588C4158FA350_size43_w1080_h934.jpg)
讯飞星火
![](https://d.ifengimg.com/w1080_h1710_ablur_q90_webp/x0.ifengimg.com/ucms/2024_24/8CBB509BD47AA5645E31A7427D9BDD0C457F9A1D_size170_w1080_h1710.jpg)
4位选手中,文心一言和讯飞星火进行了逐个答案的分析,海螺AI则最言简意赅,只回答了答案没给过程。
另一道正确率比较高的题,是难度较大的第5题。
![](https://d.ifengimg.com/w1080_h489_q90_webp/x0.ifengimg.com/ucms/2024_24/594E408073D35E37F6677D17B012327DB5E17230_size157_w1080_h489.png)
但答对这道题的选手名单有所不同,讯飞星火、海螺AI依然在列,另外两位换成了Kimi和腾讯元宝。
Kimi
![](https://d.ifengimg.com/w1080_h1920_ablur_q90_webp/x0.ifengimg.com/ucms/2024_24/B97CFD553E949B708787C2BDD2328C88CDCDB108_size223_w1080_h1920.jpg)
腾讯元宝
![](https://d.ifengimg.com/w1080_h1126_ablur_q90_webp/x0.ifengimg.com/ucms/2024_24/4F2E8B6306D348830705D6EB608E6D9FDB076037_size51_w1080_h1126.jpg)
和海螺AI一样,腾讯元宝也是惜字如金型(doge)。
另外一个有意思的现象是,有的大模型选手尽管答案不对,但还挺有考试技巧的。
比如ChatGLM,在面对双缝干涉实验中,“哪种说法可以使相邻两条亮纹中央间距变小”这个问题时,它一通分析觉得答案全错,但还是退而求其次挑了一个看上去相对正确的答案。
![](https://d.ifengimg.com/w1080_h1865_ablur_q90_webp/x0.ifengimg.com/ucms/2024_24/36A1738A558363F21C4310A948ABFB5B9504EBE0_size922_w1080_h1865.png)
Round 2:多选题
再来看看多选题(18分)的情况。
p.s. 在多选题作答过程中,人类考官在提示词中提醒了选手们这是“多选题”。
![](https://d.ifengimg.com/w750_h546_q90_webp/x0.ifengimg.com/ucms/2024_24/7E9719797CE8C0348756D781BCFB8D6957B13D73_size88_w750_h546.png)
根据多选题判卷规则,全部选对得满分,部分选对得一半分,有选错不得分,表现最佳的是海螺AI(2道题全对,1道题部分对),其次是通义千问、文心一言和万知(1道题全对,2道题部分对)。
和单选题的情况类似,大模型们正确率最高的第8题是一道概念题:
X射线光电子能谱仪是利用X光照射材料表面激发出光电子,并对光电子进行分析的科研仪器,用某一频率的X光照射某金属表面,逸出了光电子,若增加此X光的强度,则( )
A. 该金属的逸出功增大
B. X光的光子能量不变
C. 逸出的光电子最大初动能增大
D. 单位时间逸出的光电子增多
第9题有两位选手选中了全部正确选项:海螺AI和万知。
![](https://d.ifengimg.com/w1080_h567_q90_webp/x0.ifengimg.com/ucms/2024_24/2E6B8B8D6901280C95C063A8FCA6B406260821E8_size48_w1080_h567.jpg)
来看看万知的具体回答:
![](https://d.ifengimg.com/w1080_h3078_ablur_q90_webp/x0.ifengimg.com/ucms/2024_24/B303B7E8A1E1AB1A67310D7BCC3F1BEC404C0EAF_size878_w1080_h3078.png)
今日份的测试,就先到这里,你觉得大模型们的表现如何?至少在这份物理卷子46分的选择题里,还是有不少选手能拿到及格分了。