火热大模型竞赛中,DeepSeek发布开源模型,跑分性能比肩GPT-4o?

科技 2024-06-18 11:24 阅读:

火热的大模型竞赛中,比拼性能已经成为一件司空见惯的事情。随着技术的不断迭代,每隔一段时间就会有一代更新版的AI大模型出现,而且它们都自称能够与GPT-4媲美。在这个背景下,AI公司深度求索于6月17日正式上线了开源模型DeepSeek-Coder-V2。据DeepSeek介绍,该模型在代码和数学的多个榜单上位居全球第二,介于最强闭源模型GPT-4o和GPT-4-Turbo之间。此外,DeepSeek-Coder-V2开源大模型还具有良好的通用性能,在中英通用能力上位列国内第一梯队。

火热大模型竞赛中,DeepSeek发布开源模型,跑分性能比肩GPT-4o? 第1张

DeepSeek表示,该模型采用了上一代DeepSeek-V2模型的创新架构,总参数为2360亿,但每个token只需激活210亿参数,这不仅减少了内存使用,还提高了计算效率。DeepSeek最新的开源模型支持32K上下文,并且保持了此前的定价,每百万tokens输入价格为1元,输出价格为2元。DeepSeek此前率先拉低大模型的定价,随后字节跳动、阿里云、百度等行业巨头也加入了低价队列,引发了国内大模型价格战。

为了证明性能排名的权威性,各企业在发布大模型时通常会附上评测榜单,其中包含了不同的评测集。评测集就像是AI大模型的考卷,用来测试它们在各类任务和场景下的表现,但考察的侧重点会有所不同。通过给大模型打分,可以直观地对比它们的性能高低。

具体来说,在评估大模型代码生成能力的HumanEval评测集上,DeepSeek新推出的开源模型得分为90.2,仅次于分数为91.0的GPT-4o。在数学算数领域,GSM8K是由OpenAI发布的大模型数学推理能力评测基准,DeepSeek-Coder-V2模型的得分为94.9,同样超过了众多开闭源模型。然而,在通用能力的评测上,DeepSeek-Coder-V2模型在目前使用最多的MMLU评测集上得分为79.2,与GPT-4仍有一定差距,也不及其他几家开源模型。阿里云在6月初发布的开源模型Qwen2-72B获得了82.3的分数,而Meta的Llama3-70B模型为80.2。

DeepSeek表示,虽然DeepSeek-Coder-V2在综合得分上超过了前一代模型,但两个模型在实际应用中各有所长。DeepSeek-V2更擅长文本创作和任务规划等方面,而DeepSeek-Coder-V2则更擅长代码编程、数学计算和逻辑推理。

另外,英伟达在6月14日宣布开源Nemotron-4 340B系列模型,其表现超过了其他开源竞争对手,包括Llama3-70B、Qwen2-72B和法国创企Mistral AI的Mixtral-8x22B等,甚至能够与闭源模型GPT-4o相媲美。Nemotron-4 340B系列包括了基础模型Base、指令对齐模型Instruct和奖励模型Reward。其中,Base模型在ARC-c、Winogrande等评估大语言模型常识推理能力的基准测试中表现出色,优于