凡亿专栏 | AI大模型高考成绩对比:哪家最强?
AI大模型高考成绩对比:哪家最强?

自从OpenAI2022年推ChatGPT,“AI大模型”新概念火爆全球,各大企业及组织纷纷研究专属AI模型,其中最为出名的是OpenAI的ChatGPT、阿里巴巴的通义千问等,如果这些AI大模型都去高考,那么谁的成绩最好?

1.png

近日,上海人工智能实验室旗下司南评测体系OpenCompass针对七家AI大模型,进行了高考九科目的全科目测试,从而全面评测大模型实例。

本次参与测试的AI模型,分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室&商汤、法国Mistral的开源模型,以及OpenAI的闭源模型GPT-4o。

本次评测以参加高考人数最多的河南省分数线作为参考,从图中可看出,文科成绩最好的是阿里巴巴的通义千问,以546分成绩拿下第一,刚好达到文科一本线分数;理科成绩最好的是上海人工智能实验室&商汤联合研发的浦语文曲星,以468.5分拿下第一,不过没有达到一本线,而是只能上二本门槛。

而OpenAI的GPT-4o在文科上得分531分,排名第三,理科得分为467分,排名第二。

据评测机构分析,AI在文科科目如语文、历史、地理、思想政治等科目上展现了深厚的知识储备和理解能力,但在理科科目中,数理推理能力普遍存在短板。特别是在面对带图片的题目,得分率仅有37.64%。

这也可以看出:尽管大模型在基础知识掌握上表现出色,但在逻辑推理和知识灵活应用方面仍有较大差距。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表凡亿课堂立场。文章及其配图仅供工程师学习之用,如有内容图片侵权或者其他问题,请联系本站作侵删。
相关阅读
进入分区查看更多精彩内容>
精彩评论

暂无评论