时政·财经·军事 | 生活·家庭·娱乐 | 体坛·历史·科技 | 摄影·旅游·文化 | 移民·教育·就业 | 数码·健康·奇闻 | 社区·评论·问卷
留园网首页 · 新闻速递首页 · 【繁體閱讀】 【网友评论:15 条】 【 热评新闻排行 】 【 热门新闻排行 】 【 即刻热度新闻排行 】 【 72小时神评妙论 】   

首个AI高考全卷评测结果:最高分303,数学全不及格(组图)

新闻来源: 快科技 于2024-06-19 20:06:27  提示:新闻观点不代表本网立场

快科技6月19日消息,据媒体报道,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。OpenCompass发布了首个大模型高考全卷评测结果。

在满分420分的三科测试中,阿里通义千问2-72B以303分的成绩拔得头筹,紧随其后的是OpenAI的GPT-4o,获得296分,而上海人工智能实验室的书生·浦语2.0位列第三。



这三大模型的得分率均超过了70%,展现了不俗的实力。相比之下,来自法国大模型初创公司的Mistral则排名末尾。

参与此次评测的模型来源广泛,包括阿里巴巴、零一万物、智谱AI、上海人工智能实验室、法国Mistral的开源模型,以及OpenAI的闭源模型GPT-4o。



为确保公平,实验室特别指出,由于无法确定闭源模型的更新时间,评测中仅将GPT-4o作为参考,并未纳入商用闭源模型。同时,所有参与评测的模型均在高考前(2024年4月-6月)开源,有效避免了“刷题风险”。

从评测结果来看,大模型在语文和英语方面的表现普遍较好,但在数学方面则普遍不及格。最高分仅为75分,由书生·浦语2.0获得,紧随其后的是GPT-4o的73分。语文方面,通义千问表现出色,而英语则由GPT-4o领跑。

数学成绩的不理想凸显出大模型在复杂推理能力方面的不足。这一能力是金融、工业等要求可靠场景落地所需的关键能力,也是大模型未来发展的重要方向。




			
网编:睿文

鲜花(1)

鸡蛋(3)
15 条
【手机扫描浏览分享】

扫一扫二维码[Scan QR Code]
进入内容页点击屏幕右上分享按钮
敬请注意:新闻内容来自网络,供网友多视角阅读参考,观点不代表本网立场!若有违规侵权,请联系我们。
热门评论当前热评  更多评论...
评论人:carlos067[☆品衔R4☆][个人频道][个人动态] 2024年06月19日20:50 回复
第一个蒸汽机车比马车跑的慢。。。
20   1
评论人:阳痿男[♂☆品衔R3☆♂][个人频道][个人动态] 2024年06月19日20:28 回复
这些大模型都是通过文章训练出来的,当然只能搞搞语文。英语也是英国美国的语文。
17   1
评论人:oldoldcandy[★品衔R5★][个人频道][个人动态] 2024年06月19日22:49 回复
哈..哈..期望愈大,失望愈大...
2  
评论人:狼王2[☆品衔R4☆][个人频道][个人动态] 2024年06月19日22:44 回复
扯淡,我大学理工试卷全是gpt 做的,比教授做得还好。
3   1
评论人:cxy1223[★品衔R6★][个人频道][个人动态] 2024年06月19日22:30 回复
 回复6楼:在没有准确答案的时候,比较擅长忽悠人类。让它们做点实事就漏洞百出。
5  
评论人:鹿特丹丹[★★声望品衔9★★][个人频道][个人动态] 2024年06月19日22:14 回复
有意思。有没有具体答卷?
 
评论人:potatohead[★六个中文字符★][个人频道][个人动态] 2024年06月19日21:01 回复
这应该被举报了吧。
3   1
评论人:铗归来[♂★★声望品衔10★★♂][个人频道][个人动态] 2024年06月19日20:25 回复
书生·浦语2.0
不道德
超过了GPT-4o
不道德。
3  
评论人:slimane[★品衔R6★][个人频道][个人动态] 2024年06月19日20:10 回复
強國用OpenAI是不是違法行為?
9   6
新闻速递首页 | 近期热门新闻 | 近期热评新闻 | 72小时神评妙论 | 即刻热度新闻排行
科技频道】【宠物情缘】【生活原创】【学习园地】【爱子情怀
前期相关精彩新闻
新闻速递首页·向留园新闻区投稿·本地新闻·返回前页