部分国内代表性大模型SuperCLUE中文测评基准得分(23年7月-24年2月) 原图定位 大模型表现的比较,我们主要参考国内较权威机构 SuperCLUE在 23年 7月至 24年 2月的测评结果。测评是基于 4572道中文评测题,可以看到在过去半年里国内领军大模型在不断进步,与 GPT-4的差距在不断缩小。24年 2月的测评结果,在中文领域国内领军大模型的平均水平已经接近 GPT-4。SuperCLUE还对全球大部分模型进行了测评,从 24年 2月的结果来看,国内在中文领域综合能力超过 GPT3.5的模型有 13个,文心一言 4.0、GLM-4、通义千问 2.1排名前三;国外模型的平均成绩为 57.83分,国内模型平均成绩为68.75分。可以看出,国内大模型在中文领域的能力的平均水平已经超过国外大模型。