Meta发布Chameleon多模态模型，领跑行业发展-金财在线

Meta最近发布了一个名为Chameleon的多模态模型，它在多模态模型发展中设立了新的标杆。Chameleon是一个早期融合的基于token的混合模态模型家族，能够理解并生成任意顺序的图像和文本。

Chameleon模型的创新之处在于其早期融合方法，所有处理流程从一开始就映射到一个共同的表示空间，让模型能够无缝处理文本和图像。它在各种任务上展示了广泛的能力，包括视觉问答、图像标注、文本生成、图像生成和长形式混合模态生成。

Chameleon模型在技术上面临了重大挑战，Meta的研究团队引入了一系列架构创新和训练技术。例如，他们开发了新的图像分词器，基于8192大小的codebook，将512×512的图像编码为1024个离散的token。此外，Chameleon使用了sentencepiece开源库训练的BPE分词器。

Meta发布Chameleon多模态模型，领跑行业发展第1张