12个国产大模型大战高考数学 意外炸出个大bug(组图)
新闻来源: 量子位 于2024-06-08 14:15:44 提示:新闻观点不代表本网立场
继国产大模型挑战高考作文之后,是时候再战一下高考数学了。数学高考Ⅰ卷的题目,目前已经陆陆续续在网上有所公布(图片格式)。![](https://p3-sign.toutiaoimg.com/tos-cn-i-axegupay5k/951e6ac42975492eab6a852a305af9d2~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1718478773&x-signature=yzESHwZgpqbsPFVDFZmwsJTJC64%3D)
那么现在,是时候考验国产大模型们的数学能力了。
有请“选手们”登场——
Kimi、通义千问、文心一言、豆包、智谱清言、百小应、讯飞星火、商量、腾讯元宝、天工、海螺AI、万知。
![](https://web.popo8.com/202406/08/3/f7d250cc51type_jpeg_size_869_89_end.jpg)
国产大模型 vs 高考数学选择题根据数学题目类型的不同,我们先来小试牛刀一下选择题。
测评的方式是将题目(图片格式)“喂”给国产大模型们,要求它们给出相应题目的答案:
查看题目,给出第1题到第8题的答案。
接下来,我们就来一同看下国产大模型们的表现。
Kimi
![](https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/fd91d001ebc94fefba6cad3e1de07e03~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1718478773&x-signature=emNBj5a0rR%2BhhwfOEg4PE%2FmFNPk%3D)
通义千问
![](https://web.popo8.com/202406/08/12/3f16d69643type_jpeg_size_945_84_end.jpg)
豆包
![](https://web.popo8.com/202406/08/9/6f99277fe7type_jpeg_size_1080_18_end.jpg)
智谱清言
![](https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/ba46edc071e84ecf8cb47005720b7673~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1718478773&x-signature=T13DmbIT%2B6myMk%2BkenksIs19Cik%3D)
百小应
![](https://web.popo8.com/202406/08/6/4ed80aba4atype_jpeg_size_1080_30_end.jpg)
讯飞星火
![](https://web.popo8.com/202406/08/16/fed3a9ff4ctype_jpeg_size_682_31_end.jpg)
商量
![](https://web.popo8.com/202406/08/8/2238bfffdetype_png_size_1080_202_end.jpg)
腾讯元宝
![](https://web.popo8.com/202406/08/11/45c8b474aatype_jpeg_size_750_48_end.jpg)
海螺AI
![](https://web.popo8.com/202406/08/12/958ca5628etype_jpeg_size_1080_101_end.jpg)
万知
![](https://web.popo8.com/202406/08/14/9228781921type_jpeg_size_1080_17_end.jpg)
不难看出,很多国产大模型还未做数学题,先败在了AI识图这个步骤,无法生成答案。
(PS:有几位选手测试时因为无法识别,未能完成答题,因此没有放出结果。)
那么我们最后来看下“踢馆选手”——GPT-4o。
![](https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/301ef7cf64b3480384eaa2c0d84d8c2c~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1718478773&x-signature=0Cj08k73NzWFgNEZXS1%2BROAwiJk%3D)
国产大模型 vs 数学大题鉴于一些国产大模型AI识图有点困难,我们这次直接先把这次高考的大题题目文字给copy出来,再让它们作答:
设n为正整数,数列 ( a1, a_2, cdots, a{4m+2} ) 是公差不为0的等差数列。若从中抽去项 ( ai ) 和 ( a_j ) (i
接下来,我们再来看下国产大模型们的表现。
Kimi
![](https://web.popo8.com/202406/08/10/4b59ed3505type_jpeg_size_1080_15_end.jpg)
通义千问
![](https://web.popo8.com/202406/08/9/78d4e1c1e0type_jpeg_size_945_11_end.jpg)
文心一言
![](https://web.popo8.com/202406/08/1/60066f3a73type_jpeg_size_1080_20_end.jpg)
豆包
![](https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/66b2dacc6ed74d44915f52b2505443b0~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1718478773&x-signature=cq7whoam5EpElqzaqvLVC%2BtRDnI%3D)
智谱清言
![](https://web.popo8.com/202406/08/11/8748c19f45type_png_size_1033_10_end.jpg)
百小应
![](https://web.popo8.com/202406/08/1/9ed06f6925type_jpeg_size_1080_18_end.jpg)
讯飞星火
![](https://web.popo8.com/202406/08/0/0e2ffd3dd4type_jpeg_size_682_16_end.jpg)
商量
![](https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/43a74c7d44c64c3b9250a95e8ad9cb1c~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1718478773&x-signature=U70iSprqSf6doJd3AHLAdXivcGk%3D)
腾讯元宝
![](https://web.popo8.com/202406/08/7/95cedd9790type_jpeg_size_750_13_end.jpg)
天工
![](https://web.popo8.com/202406/08/16/dd14ba9e48type_png_size_957_9_end.jpg)
海螺AI
![](https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/74e02b7274fa4f9e850887f924a1eb51~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1718478773&x-signature=scMP%2FxmaVXpJArtdYE%2BbqFGqQcA%3D)
万知
![](https://web.popo8.com/202406/08/9/32b8239158type_jpeg_size_1080_20_end.jpg)
最后,还是有请“踢馆选手”——GPT-4o。
![](https://web.popo8.com/202406/08/10/e0ee127bbctype_png_size_954_9_end.jpg)
那么,你觉得国产大模型们,识图+解数学题,哪家比较好一点呢?
最后,关于AI智能助手,这里也有一份最新用户数据分析报告供你参考:
https://mp.weixin.qq.com/s/sYxbvown5qLBnEs7zIR6Bg
那么现在,是时候考验国产大模型们的数学能力了。
有请“选手们”登场——
Kimi、通义千问、文心一言、豆包、智谱清言、百小应、讯飞星火、商量、腾讯元宝、天工、海螺AI、万知。
![](https://web.popo8.com/202406/08/3/f7d250cc51type_jpeg_size_869_89_end.jpg)
国产大模型 vs 高考数学选择题根据数学题目类型的不同,我们先来小试牛刀一下选择题。
测评的方式是将题目(图片格式)“喂”给国产大模型们,要求它们给出相应题目的答案:
查看题目,给出第1题到第8题的答案。
接下来,我们就来一同看下国产大模型们的表现。
Kimi
通义千问
![](https://web.popo8.com/202406/08/12/3f16d69643type_jpeg_size_945_84_end.jpg)
豆包
![](https://web.popo8.com/202406/08/9/6f99277fe7type_jpeg_size_1080_18_end.jpg)
智谱清言
百小应
![](https://web.popo8.com/202406/08/6/4ed80aba4atype_jpeg_size_1080_30_end.jpg)
讯飞星火
![](https://web.popo8.com/202406/08/16/fed3a9ff4ctype_jpeg_size_682_31_end.jpg)
商量
![](https://web.popo8.com/202406/08/8/2238bfffdetype_png_size_1080_202_end.jpg)
腾讯元宝
![](https://web.popo8.com/202406/08/11/45c8b474aatype_jpeg_size_750_48_end.jpg)
海螺AI
![](https://web.popo8.com/202406/08/12/958ca5628etype_jpeg_size_1080_101_end.jpg)
万知
![](https://web.popo8.com/202406/08/14/9228781921type_jpeg_size_1080_17_end.jpg)
不难看出,很多国产大模型还未做数学题,先败在了AI识图这个步骤,无法生成答案。
(PS:有几位选手测试时因为无法识别,未能完成答题,因此没有放出结果。)
那么我们最后来看下“踢馆选手”——GPT-4o。
国产大模型 vs 数学大题鉴于一些国产大模型AI识图有点困难,我们这次直接先把这次高考的大题题目文字给copy出来,再让它们作答:
设n为正整数,数列 ( a1, a_2, cdots, a{4m+2} ) 是公差不为0的等差数列。若从中抽去项 ( ai ) 和 ( a_j ) (i
接下来,我们再来看下国产大模型们的表现。
Kimi
![](https://web.popo8.com/202406/08/10/4b59ed3505type_jpeg_size_1080_15_end.jpg)
通义千问
![](https://web.popo8.com/202406/08/9/78d4e1c1e0type_jpeg_size_945_11_end.jpg)
文心一言
![](https://web.popo8.com/202406/08/1/60066f3a73type_jpeg_size_1080_20_end.jpg)
豆包
智谱清言
![](https://web.popo8.com/202406/08/11/8748c19f45type_png_size_1033_10_end.jpg)
百小应
![](https://web.popo8.com/202406/08/1/9ed06f6925type_jpeg_size_1080_18_end.jpg)
讯飞星火
![](https://web.popo8.com/202406/08/0/0e2ffd3dd4type_jpeg_size_682_16_end.jpg)
商量
腾讯元宝
![](https://web.popo8.com/202406/08/7/95cedd9790type_jpeg_size_750_13_end.jpg)
天工
![](https://web.popo8.com/202406/08/16/dd14ba9e48type_png_size_957_9_end.jpg)
海螺AI
万知
![](https://web.popo8.com/202406/08/9/32b8239158type_jpeg_size_1080_20_end.jpg)
最后,还是有请“踢馆选手”——GPT-4o。
![](https://web.popo8.com/202406/08/10/e0ee127bbctype_png_size_954_9_end.jpg)
那么,你觉得国产大模型们,识图+解数学题,哪家比较好一点呢?
最后,关于AI智能助手,这里也有一份最新用户数据分析报告供你参考:
https://mp.weixin.qq.com/s/sYxbvown5qLBnEs7zIR6Bg
网编:和评 |
|
8 条 | |||
|
|||||
敬请注意:新闻内容来自网络,供网友多视角阅读参考,观点不代表本网立场!若有违规侵权,请联系我们。 | |||||
【科技频道】【宠物情缘】