闭源和开源模型在基准测试中的得分对比-行业数据

闭源和开源模型在基准测试中的得分对比原图定位

闭源模型：能力优于开源，是模型基础能力上限持续突破的主阵地。2023年3月，OpenAI发布最新大模型GPT-4，其不仅具备对图文输入生成应答文字等多模态能力，还在上下文窗口容量、推理能力等方面实现突破，GPT-4由此成为了最强大模型。随后，谷歌发布Gemini 1.0及更新后的Gemini 1.5 Pro，把上下文窗口容量再次提升。进入2024年，Anthropic发布最新大模型Claude 3，其在模型理解能力（MMLU）、推理能力（GPQA）等再次实现突破，得分超过GPT-4和Gemini 1.0 Ultra，成为目前能力最强的大模型。出于商业竞争、安全等因素的考量，这些模型仍均为闭源模型。对比它们与开源模型在基准测试中的得分，闭源模型表现明显更为突出。头部大模型公司正凭借科研实力、人才、算力资源等优势，成为推动模型基础能力持续实现突破的主要力量。