西交微软北大联合提出IN2训练治疗LLM中间迷失

科技 2024-05-22 10:40 阅读:

近日,西交微软北大联合提出了信息密集型训练大法,使用纯数据驱动的方式,矫正LLM训练过程产生的偏见,在一定程度上治疗了大语言模型丢失中间信息的问题。研究人员认为,Lost in the Middle的原因是训练数据中的无意偏差。因为LLM的预训练侧重于根据最近的一些token预测下一个token,而在微调过程中,真正的指令又往往位于上下文开始的位置。基于这样的见解,研究人员提出了信息密集型(INformation-INtensive,IN2)训练方法,来建立数据之间的桥梁。IN2训练使用合成问答数据,向模型显式指出重要信息可以位于上下文中的任何位置。研究人员使用了两种类型的训练问题:一种是要求在一个片段中提供细节,另一种是需要整合和推断来自多个片段的信息。IN2训练到底效果如何?使用明星模型Mistral-7B来试试。将IN2训练应用于Mistral-7B,得到了新模型FILM-7B(FILl-in-the-Middle),然后测试为长上下文设计的三个新的提取任务。测试任务涵盖不同的上下文类型(文档、代码、结构化数据)和搜索模式(向前、向后、双向)。结果表明,IN2显著降低了原始Mistral模型的「中间丢失」问题。更厉害的是,作为只有7B的模型,FILM的性能在很多情况下甚至超越了GPT-4Turbo。在保持自己执行短上下文任务能力的同时,FILM-7B在各种长上下文任务中也表现出色,例如总结长文本,回答有关长文档的问题,以及对多个文档的推理。对于许多长上下文LLM,中间信息丢失的现象普遍存在。上表测试了当时市面上流行的各种款式LLM,包括GPT-4,一共是七种。可以看出,不论是开源还是闭源模型的强者,测试结果都显示出明显的U形曲线,说明都是在两头效果好,而中间就拉跨了。即使强如GPT-4,也难逃被「掰弯」的命运。信息密集型训练大法为了明确教导模型,在长上下文中的任何位置都可以包含关键信息。研究人员构建了一个长上下文问答训练数据集 D = {L,q,a},其中问题q的答案a,来自长上下文L中的随机位置。具体来说,训练数据D基于通用自然语言语料库C。给定一个原始文本,首先使用LLM(GPT-4-Turbo)生成一个问答对 (q,a),然后合成一个长上下文 L,其中包括来自C的其他随机抽样文本的必要信息。VAL探测研究人员提出了VAL探测方法,作为评估语言模型上下文性能的更合适的方法,涵盖了不同的上��文风格和检索模式,以进行更彻底的评估。VAL探测中的每个上下文都包含约32K个token,每个任务包含约3K个示例。文档句子检索(双向):上下文由许多自然语言句子组成,目的是检索包含给定片段的单个句子。代码函数检索(向后):上下文由Python函数组成,目的是检索函数定义中给定代码行的函数名称。数据库实体检索(向前):上下文包含结构化实体列表,每个实体都有三个字段:ID、label和description,目的是检索给定ID的标签和说明。以上是最新的研究成果,为解决LLM中间迷失问题提供了新的思路和方法。

西交微软北大联合提出IN2训练治疗LLM中间迷失 第1张

西交微软北大联合提出IN2训练治疗LLM中间迷失 第2张

西交微软北大联合提出IN2训练治疗LLM中间迷失 第3张

西交微软北大联合提出IN2训练治疗LLM中间迷失 第4张

西交微软北大联合提出IN2训练治疗LLM中间迷失 第5张

西交微软北大联合提出IN2训练治疗LLM中间迷失 第6张

西交微软北大联合提出IN2训练治疗LLM中间迷失 第7张

西交微软北大联合提出IN2训练治疗LLM中间迷失 第8张

西交微软北大联合提出IN2训练治疗LLM中间迷失 第9张

西交微软北大联合提出IN2训练治疗LLM中间迷失 第10张

西交微软北大联合提出IN2训练治疗LLM中间迷失 第11张

西交微软北大联合提出IN2训练治疗LLM中间迷失 第12张