上海品茶

三个皮匠报告—— 严选型全行业研究报告分享下载平台，您的专属行业智库！

欢迎来到三个皮匠报告！帮助中心

部分国内代表性大模型SuperCLUE中文测评基准得分(23年7月-24年2月)-行业数据

您的当前位置：上海品茶 > 行业数据 > 部分国内代表性大模型SuperCLUE中文测评基准得分(23年7月-24年2月)

部分国内代表性大模型SuperCLUE中文测评基准得分(23年7月-24年2月) 原图定位

大模型表现的比较，我们主要参考国内较权威机构 SuperCLUE在 23年 7月至 24年 2月的测评结果。测评是基于 4572道中文评测题，可以看到在过去半年里国内领军大模型在不断进步，与 GPT-4的差距在不断缩小。24年 2月的测评结果，在中文领域国内领军大模型的平均水平已经接近 GPT-4。SuperCLUE还对全球大部分模型进行了测评，从 24年 2月的结果来看，国内在中文领域综合能力超过 GPT3.5的模型有 13个，文心一言 4.0、GLM-4、通义千问 2.1排名前三；国外模型的平均成绩为 57.83分，国内模型平均成绩为68.75分。可以看出，国内大模型在中文领域的能力的平均水平已经超过国外大模型。