国内大模型在部分领域比肩GPT-4-Turbo-1106-行业数据

国内大模型在部分领域比肩GPT-4-Turbo-1106 原图定位

国产大模型在语言、知识、推理等单一维度甚至已经超过 GPT-4-Trubo。目前国产大模型在语言和知识维度已经明显赶上 GPT-4-Turbo，如阿里巴巴 Qwen1.5-110B-Chat、智谱清言 GLM-4、百度 ERNIE-4.0 均已在语言和知识两个维度超过 GPT-4-Turbo，月之暗面 Moonshot-v1-8k 也在知识维度略微高于 GPT-4-Turbo；推理维度，科大讯飞的讯飞星火 V3.5 在推理方面得到 48.8 分，小幅超过 GPT-4-Turbo 的 48.2 分，MiniMax 的abab 6.5 更是达到 50.1 分；阿里巴巴 Qwen1.5-110B-Chat 在数学维度达到 53.6 分，与 GPT-4-Turbo 持平；DeepSeek-V2-Chat 代码得分 67.3 分，小幅超过 GPT-4-Turbo 的 67.2 分；智能体维度上，各大模型距离 GPT-4-Turbo 仍有差距。