当前位置: 首页>资讯 >

环球新资讯:当ChatGPT参加中国高考,把全国A卷B卷喂给它后,竟严重偏科!

来源: 夕小瑶科技说 | 时间: 2023-05-26 13:05:58 |

夕小瑶科技说 原创作者 | PythonChatGPT作为一个智能人机对话应用,在推出后迅速风靡全球。仅仅一个月的时间,其用户数量已经突破了一亿大关。人们也用ChatGPT测试了很多考试项目,例如SAT、AP、GRE等。然而,如果让ChatGPT来参加我们中国的高考,会是怎样的一番光景呢?他会不会偏科呢?我们这些普通人又能否考得过ChatGPT呢?且看复旦大学和华东师大的同学们给大家带来的评测。

论文题目:Evaluating the Performance of Large Language Models on GAOKAO Benchmark论文链接:https://arxiv.org/pdf/2305.12474.pdf

如何让ChatGPT解答高考题?

该论文采用零监督prompt的方式,将试题转化为ChatGPT的输入,如下图所示。对于不同的学科和题型,设计了不同的询问方式。对于数学题,则将公式转化为latex输入。


(相关资料图)

高考数据集

本文测试采用2010~2022年,一共13年间的全国A卷和全国B卷,每套试卷包含10门学科,即语数英物化生史地政,其中数学分为理科数学与文科数学。

数据集一共包含2811道试题。具体题型这里就不展开,相信读者们对高考题还是十分了解的。

在评估时,聘请上海市曹杨第二中学的高中老师批阅主观题。

实验与分析

历年高考,ChatGPT取得的分数如下图所示。由于在计算分数时,将每科都归一化到100分,所以这个成绩无法和你我的高考成绩直接比较。但也可以看出,这个分数并不理想,估计无论是复旦还是华东师大都是考不上的。这是为什么呢?

上图展示了ChatGPT在各个学科、以及主客观题上的表现。蓝色为客观题,黄色为主观题。分析发现,ChatGPT对客观题的成绩较好,尤其是英语阅读理解、单选、完形填空,分别取得了88.3%,78.1%,73.8%的准确率。但即使是客观题,理科数学的准确率还不到40%。数学是真的难呀~

主观题上,ChatGPT的表现较差,物理、化学、生物和数学科目中,主观题的表现明显不如客观题。结合理科客观题分数也较差,或许ChatGPT偏向文科?根据阅卷人的评语,ChatGPT主要欠缺在:1.数学问题中的复杂方程难以正确解决,在解题过程中使用了错误的公式。2.阅读较长材料时理解和概括能力不足。

总结

ChatGPT在训练过程中可能没有使用中国高考题数据,因此其表现不受数据泄露的影响,具有较高的可信度。

观察结果显示,与国外考试相比,ChatGPT在中国高考题方面的表现稍逊一筹。因此,国内的学生暂时无需过分担心无法考过ChatGPT。然而,文章中提到的长文本概括能力等在GPT4-32K中有显著改进,国产大模型也在中文数据上做了进一步的优化。因此,我们可以期待未来大模型高考题上取得更瞩目的表现。

此外,用ChatGPT解高考题这个思路,或许可以回答网友们对哪个省的考题更难的争论?

关键词:

 

热文推荐

环球新资讯:当ChatGPT参加中国高考,把全国A卷B卷喂给它后,竟严重偏科!

夕小瑶科技说原创作者|PythonChatGPT作为一个智能人机对话应用,在推出后迅速风靡全球。仅仅一个月的时间,

2023-05-26

茶香“出山”飘向全国 当江苏碧螺春工艺遇上贵州千米高山茶_世界快报

清明前后,贵州铜仁市思南县鹦鹉溪镇白茶基地,2500多亩白茶进入采收期。今年,白茶基地出产干茶1 6万斤,

2023-05-26

天天通讯!Lazada推出电商AI聊天机器人LazzieChat

5月26日消息,LazadaGroup近日发布了LazzieChat,这是东南亚首款由AzureOpenAI服务中的OpenAIChatGPT提供技术支持

2023-05-26

天天新消息丨文胜湖核心片区将启动城市设计!地铁7号线通达,拟与9号线衔接……

视频制作:记者周科娜5月24日公示的《宁波市镇海区分区国土空间总体规划(2021-2035年)》(公众征求意见稿

2023-05-26

地震武器设计专业排名院校 计算机应用技术专业 焦点快看

今天,大学路小编为大家带来了地震武器设计专业排名院校计算机应用技术专业,希望能帮助到广大考生和家长,

2023-05-26

推进新一轮电信基础设施共建共享|全球焦点

据北京5月25日电(记者魏弘毅、张辛欣)近日,工业和信息化部等十四部门联合印发《关于进一步深化电信基础

2023-05-26

任务帮平台app大全_任务帮 天天热议

1、任务帮是通过移动终端应用实现人与人之间的发布需求与解决需求的一个多维系统,通过担保交易确保交易的

2023-05-26

关于长城的故事和传说有哪些_长城的故事和传说介绍 今日精选

欢迎观看本篇文章,小柴来为大家解答以上问题。关于长城的故事和传说有哪些,长城的故事和传说介绍很多人还

2023-05-26

即时看!腾讯会议周期性会议室如何使用 腾讯会议周期会议是什么意思

腾讯会议周期性会议室如何使用?更新版本可以设置使用周期性会议室功能,设置之后就不需要每次会议重新设置

2023-05-26

小学转学外省需要办什么手续须知(小学外地转学好转嘛)

每日小编都会为大家带来一些知识类的文章,那么今天小编为大家带来的是小学外地转学好转嘛方面的消息知识,

2023-05-26

广东省职称证书查询入口_广东省职称证书查询|世界即时

1、我也是这样,中介说身份证号搞错了,还不知道搞不搞的好,真郁闷。2、你是在哪报的?如果是通过中介就最

2023-05-26

武汉简推网络科技有限公司(关于武汉简推网络科技有限公司介绍) 资讯推荐

1、武汉简推网络科技有限公司,成立于2016年,是一家结合wifi广告与自媒体的新型网络媒体公司。2、集产品方

2023-05-26

《疯狂梗传》动物专车让动物上车通关方法

《疯狂梗传》是一款非常有意思的休闲游戏,有着很多有趣的关卡,小编这里就为大家分享一下动物专车让动物上

2023-05-26

郑煤机(00564)将于7月14日分派末期股息每10股5.60元 每日速讯

郑煤机(00564)发布公告,公司将于2023年7月14日分派截至2022年12月

2023-05-26

全球百事通![快讯]嘉曼服饰公布2022年年度分红实施方案

CFi CN讯:嘉曼服饰(股票代码:301276)公布2022年度权益分派实施公告。该公司2022年年度权益分派方案为:

2023-05-26

长城举报比亚迪污染物排放不达标,此前比亚迪曾将魏商标转让给长城汽车-要闻速递

近日,长城官方举报比亚迪引发广泛关注。长城汽车举报内容称,4月11日,其向生态环境部、国家市场监督管理

2023-05-25

万州区出国务工律师事务所收费标准是多少?

(一)不涉及财产关系的案件,3000元 件,可上浮50%,下浮不限;(二)涉及财产关系的案件,按争议标的额比例,

2023-05-25

有效整治粮食“跑冒滴漏”

节粮减损是我国粮食供给保障制度框架中的一个重要组成部分,等于是在开发“无形良田”。在当前国内粮食供给

2023-05-25

艺考怎么查成绩 快报

《艺考怎么查成绩》由高考成绩查询网发布,主要内容:2021年起,全国高等教育艺术类专业统一招生考试(以下简

2023-05-25

长城汽车举报比亚迪秦 / 宋 PLUS DM-i 排放不达标,环境部门予以立案

IT之家5月25日消息,长城汽车今日发布《声明》称,就比亚迪秦PLUSDM-i、宋PLUSDM-i采用常压油箱,涉嫌整车

2023-05-25

资讯