彩云科技团队打造DCFormer框架,让小模型能够超越大模型!ICML2024高分

科技 2024-06-03 15:43 阅读:

彩云科技团队打造DCFormer框架,让小模型能够超越大模型!ICML2024高分 第1张

ICML2024高分!魔改注意力,让小模型能打两倍大的模型!彩云科技团队在ICML 2024上发表高分论文,展示了他们构建的DCFormer框架。通过替换Transformer核心组件多头注意力模块,提出了可动态组合的多头注意力。这项工作由北京邮电大学和AI创业公司彩云科技的研究人员联合完成。

彩云科技团队打造DCFormer框架,让小模型能够超越大模型!ICML2024高分 第2张

传统的多头注意力模块存在局限性,无法充分发挥模型的表达能力。因此,研究人员在该模块中引入了compose操作,实现动态组合多个注意力头的效果。这一创新方法赋予了模型更大的灵活性和表达能力。

彩云科技团队打造DCFormer框架,让小模型能够超越大模型!ICML2024高分 第3张

该创新还在规模扩展评估中取得了巨大成功,DCFormer可以达到1.7~2倍算力的Transformer模型的效果。而在下游任务上的表现也非常抢眼,DCPythia-6.9B在验证集上的ppl更低,且在大部分下游任务上都显著超过了同规模的开源模型Pythia。

彩云科技团队打造DCFormer框架,让小模型能够超越大模型!ICML2024高分 第4张

此外,DCFormer++的训练速度和推理速度也经过严格的对比实验,结果显示其性能优越。消融实验也证明了动态组合的必要性和效果更优。

研究团队表示,他们将率先在旗下产品彩云天气、彩云小译、彩云小梦上应用DCformer。感兴趣的读者可以参阅原始论文了解更多研究细节。

通过这篇论文,彩云科技团队的创新工作引发了业界的关注和探讨,该成果被认为有望在NLP领域带来重大影响。想了解更多内容,请访问ICML2024论文链接。