火热大模型竞赛中，DeepSeek发布开源模型，跑分性能比肩GPT-4o？-金财在线

火热的大模型竞赛中，比拼性能已经成为一件司空见惯的事情。随着技术的不断迭代，每隔一段时间就会有一代更新版的AI大模型出现，而且它们都自称能够与GPT-4媲美。在这个背景下，AI公司深度求索于6月17日正式上线了开源模型DeepSeek-Coder-V2。据DeepSeek介绍，该模型在代码和数学的多个榜单上位居全球第二，介于最强闭源模型GPT-4o和GPT-4-Turbo之间。此外，DeepSeek-Coder-V2开源大模型还具有良好的通用性能，在中英通用能力上位列国内第一梯队。

火热大模型竞赛中，DeepSeek发布开源模型，跑分性能比肩GPT-4o？第1张

DeepSeek表示，该模型采用了上一代DeepSeek-V2模型的创新架构，总参数为2360亿，但每个token只需激活210亿参数，这不仅减少了内存使用，还提高了计算效率。DeepSeek最新的开源模型支持32K上下文，并且保持了此前的定价，每百万tokens输入价格为1元，输出价格为2元。DeepSeek此前率先拉低大模型的定价，随后字节跳动、阿里云、百度等行业巨头也加入了低价队列，引发了国内大模型价格战。

为了证明性能排名的权威性，各企业在发布大模型时通常会附上评测榜单，其中包含了不同的评测集。评测集就像是AI大模型的考卷，用来测试它们在各类任务和场景下的表现，但考察的侧重点会有所不同。通过给大模型打分，可以直观地对比它们的性能高低。

具体来说，在评估大模型代码生成能力的HumanEval评测集上，DeepSeek新推出的开源模型得分为90.2，仅次于分数为91.0的GPT-4o。在数学算数领域，GSM8K是由OpenAI发布的大模型数学推理能力评测基准，DeepSeek-Coder-V2模型的得分为94.9，同样超过了众多开闭源模型。然而，在通用能力的评测上，DeepSeek-Coder-V2模型在目前使用最多的MMLU评测集上得分为79.2，与GPT-4仍有一定差距，也不及其他几家开源模型。阿里云在6月初发布的开源模型Qwen2-72B获得了82.3的分数，而Meta的Llama3-70B模型为80.2。

DeepSeek表示，虽然DeepSeek-Coder-V2在综合得分上超过了前一代模型，但两个模型在实际应用中各有所长。DeepSeek-V2更擅长文本创作和任务规划等方面，而DeepSeek-Coder-V2则更擅长代码编程、数学计算和逻辑推理。

另外，英伟达在6月14日宣布开源Nemotron-4 340B系列模型，其表现超过了其他开源竞争对手，包括Llama3-70B、Qwen2-72B和法国创企Mistral AI的Mixtral-8x22B等，甚至能够与闭源模型GPT-4o相媲美。Nemotron-4 340B系列包括了基础模型Base、指令对齐模型Instruct和奖励模型Reward。其中，Base模型在ARC-c、Winogrande等评估大语言模型常识推理能力的基准测试中表现出色，优于

火热大模型竞赛中，DeepSeek发布开源模型，跑分性能比肩GPT-4o？

相关推荐：

最近发表

previous