全新强化学习框架带来突破：多模态模型学会打扑克-金财在线

全新强化学习框架带来突破：多模态模型学会打扑克第1张

最新研究指出，来自UC伯克利等高校的豪华研究团队提出了一种全新的微调方法RL4VLM，该方法直接使用强化学习方法对多模态大模型进行微调，无需人类反馈，就能让这些模型学会打扑克等任务，甚至超越了商用模型GPT-4v。

全新强化学习框架带来突破：多模态模型学会打扑克第2张

这一突破性的研究的参与者包括图灵奖得主之一、Meta首席AI科学家、以及多位知名教授，相关论文已经在线上发布，并且相关代码也已在GitHub中开源。

全新强化学习框架带来突破：多模态模型学会打扑克第3张

研究人员对多模态大模型的训练指出，该模型在视觉推理和决策能力方面表现出色，超越了GPT-4v商用模型，同时在具身智能环境中也取得了显著的成功。

具体来说，通过强化学习微调的多模态大模型在数字识别能力、逻辑推理能力以及打扑克等任务中表现出色，这在人工智能领域引起了广泛的关注。

这一全新的VLM智能体主要解决了需要视觉识别和语言理解的任务，其工作流程简单而高效。研究人员指出，通过将任务的当前状态以图片和文字描述的形式输入多模态大模型，并输出一段思维链以及要执行的动作，再将动作输入对应的环境并获得奖励值，用来进行强化学习训练，能够显著提高多模态大模型的学习能力。

通过该项研究，强化学习方法直接将奖励信息来源于环境中，从而使多模态大模型学会了打扑克等决策任务，并在实验中取得了显著的突破，这一研究的重要性不言而喻。

全新强化学习框架带来突破：多模态模型学会打扑克