国内大模型在部分领域比肩GPT-4-Turbo-1106 原图定位 国产大模型在语言、知识、推理等单一维度甚至已经超过 GPT-4-Trubo。目前国产大模型在语言和知识维度已经明显赶上 GPT-4-Turbo,如阿里巴巴 Qwen1.5-110B-Chat、智谱清言 GLM-4、百度 ERNIE-4.0 均已在语言和知识两个维度超过 GPT-4-Turbo,月之暗面 Moonshot-v1-8k 也在知识维度略微高于 GPT-4-Turbo;推理维度,科大讯飞的讯飞星火 V3.5 在推理方面得到 48.8 分,小幅超过 GPT-4-Turbo 的 48.2 分,MiniMax 的abab 6.5 更是达到 50.1 分;阿里巴巴 Qwen1.5-110B-Chat 在数学维度达到 53.6 分,与 GPT-4-Turbo 持平;DeepSeek-V2-Chat 代码得分 67.3 分,小幅超过 GPT-4-Turbo 的 67.2 分;智能体维度上,各大模型距离 GPT-4-Turbo 仍有差距。