全新强化学习框架带来突破:多模态模型学会打扑克

科技 2024-06-04 15:38 阅读:

全新强化学习框架带来突破:多模态模型学会打扑克 第1张

最新研究指出,来自UC伯克利等高校的豪华研究团队提出了一种全新的微调方法RL4VLM,该方法直接使用强化学习方法对多模态大模型进行微调,无需人类反馈,就能让这些模型学会打扑克等任务,甚至超越了商用模型GPT-4v。

全新强化学习框架带来突破:多模态模型学会打扑克 第2张

这一突破性的研究的参与者包括图灵奖得主之一、Meta首席AI科学家、以及多位知名教授,相关论文已经在线上发布,并且相关代码也已在GitHub中开源。

全新强化学习框架带来突破:多模态模型学会打扑克 第3张

研究人员对多模态大模型的训练指出,该模型在视觉推理和决策能力方面表现出色,超越了GPT-4v商用模型,同时在具身智能环境中也取得了显著的成功。

具体来说,通过强化学习微调的多模态大模型在数字识别能力、逻辑推理能力以及打扑克等任务中表现出色,这在人工智能领域引起了广泛的关注。

这一全新的VLM智能体主要解决了需要视觉识别和语言理解的任务,其工作流程简单而高效。研究人员指出,通过将任务的当前状态以图片和文字描述的形式输入多模态大模型,并输出一段思维链以及要执行的动作,再将动作输入对应的环境并获得奖励值,用来进行强化学习训练,能够显著提高多模态大模型的学习能力。

通过该项研究,强化学习方法直接将奖励信息来源于环境中,从而使多模态大模型学会了打扑克等决策任务,并在实验中取得了显著的突破,这一研究的重要性不言而喻。