谢赛宁SFR等新作，统一多模态BLIP3-o登场，先理解后生成，端掉VAE刷新SOTA

zhezhongyun 2025-05-26 20:14 71 浏览

BLIP3-o是一个全开源统一多模态模型，结合自回归与扩散架构，采用「先理解后生成」策略，创新地使用CLIP特征与Flow Matching训练，显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先，也正拓展至图像编辑和视觉对话等多模态任务。

多模态模型卷到头了？不，真正的革新才刚开始。

就在最近，Salesforce Research携手UMD、VT、NYU、UW等机构的研究人员，发布了一组完全开源的统一多模态模型BLIP3-o。

BLIP3-o采用「先理解后生成」训练策略，实现了图像理解与生成的有效统一，并基于GPT-4o构建了BLIP3o-60k数据集。

论文地址：
https://arxiv.org/abs/2505.09568

BLIP3-o的架构包括两部分，理解部分使用CLIP对图像进行编码；生成部分，自回归模型生成中间视觉特征，作为DiT的输入，采用CLIP+Flow Matching策略生成图像特征。

结果显示，BLIP3-o系列在提示对齐和图像美学方面，都有显著的提升。

BLIP3-o 8B在1024×1024分辨率下的结果

同时，BLIP3-o的Demo体验网站也已上线。

网站地址：
https://blip3o.salesforceresearch.ai

具体到这篇论文中，研究团队围绕以下三个关键维度进行了深入探讨：

· 图像表示方式：将图像编码为高层级的语义特征（例如CLIP图像编码器），而不是低层级的像素特征（例如基于VAE的编码器）

· 训练目标函数：使用Flow Matching代替MSE，提升图像生成质量。

· 训练策略：采用顺序训练策略效果最佳，先用图像理解任务训练自回归模型，再在图像生成阶段保持其参数冻结。

统一多模态下的图像生成与理解

OpenAI的GPT-4o最近展示的高质量图像生成和强大的多模态理解能力，激发了人们对于多模态范式的兴趣。。

关于OpenAI的GPT-4o架构的猜测中，最有可能的一种是采用了一种混合管道结构：

这表明自回归和扩散模型可结合起来。受这种混合设计的启发，研究团队在研究中采用了自回归+扩散框架。

在这种框架下，最优架构方案仍不明确。自回归模型负责生成连续的中间视觉特征，用以逼近真实的图像表示，但这带来了两个关键问题：

首先，如何定义「真实」的图像嵌入？应该选择VAE还是CLIP来将图像编码为连续特征？

其次，如何建模和对齐这些生成的视觉特征与真实特征之间的分布？是采用简单的MSE损失，还是使用更复杂的扩散方法？

为了解决这些问题，研究团队在后续部分中对不同的架构设计、特征表示方式和建模策略进行了系统性探索。

研究团队首先探讨如何通过编码器-解码器架构将图像表示为连续嵌入，这在学习效率和生成质量方面起着基础性作用。

图像编码与重建

图像生成通常首先使用编码器将图像编码为连续的潜在嵌入，然后使用解码器从该潜在嵌入中重建图像。这种编码-解码流程可以有效地降低图像生成中输入空间的维度，从而提高训练效率。研究讨论了两种目前广泛使用的方式：

变分自编码器（Variational Autoencoders）

变分自编码器（VAE）是一类生成模型，它们学习将图像编码到一个结构化的连续潜在空间中。编码器近似给定输入图像的潜在变量的后验分布，而解码器从这个潜在分布中抽取样本重建图像。

潜在扩散模型通过学习建模压缩潜在表示的分布而不是原始图像像素来构建在这个框架上。通过在VAE潜在空间中操作，这些模型显著降低了输出空间的维度，从而降低了计算成本并使训练更加高效。

CLIP编码器与扩散解码器（CLIP Encoder with Diffusion Decoder）

CLIP模型已成为图像理解任务的基础编码器，因为它通过大规模图像-文本对的对比训练能够从图像中提取丰富、高级的语义特征。

然而，利用这些特征进行图像生成仍然是一个不小的挑战，因为CLIP最初并不是为重建任务设计的。

针对这个问题，团队通过将基于CLIP的编码器与基于扩散的解码器配对，提出使用EVA-CLIP将图像编码为连续的视觉嵌入，并通过从初始化的扩散模型进行重建。

在训练过程中，扩散解码器被微调以使用来自EVA-CLIP的视觉嵌入作为条件，从高斯噪声中恢复原始图像，而EVA-CLIP保持冻结。

这一过程有效地将CLIP和扩散模型结合成一个图像自编码器：CLIP编码器将图像压缩为语义丰富的潜在嵌入，而基于扩散的解码器则从这些嵌入中重建图像。

建模潜在图像表示

在获得连续的图像嵌入后，研究团队使用自回归架构对其进行建模。

给定用户提示（比如「一个戴着草帽的年轻雀斑女子」），研究团队首先使用自回归模型的输入嵌入层将提示编码为嵌入向量序列C ，并将可学习的查询向量Q附加到C ，其中Q是随机初始化并在训练中优化的。

当组合序列[C;Q]通过自回归Transformer处理时， Q学会关注并从提示C中提取相关的语义信息。

生成的Q被解释为由自回归模型生成的中间视觉特征或潜在表示，并被训练以逼近真实图像特征X。

接下来，研究团队介绍两个训练目标并进行了对比：均方误差和流匹配，使Q与真实图像嵌入X对齐。

均方误差（MSE）

均方误差损失是一个简单且广泛使用的连续图像嵌入学习目标。

给定由自回归模型生成的预测视觉特征Q和真实图像特征X ，研究团队首先应用一个可学习的线性投影来对齐Q和X的维度。然后将MSE损失公式化为：

其中W表示可学习的投影矩阵。

流匹配（Flow Matching ）

仅使用MSE损失只能使预测的图像特征Q与目标分布的均值对齐。理想的训练目标应能建模连续图像表示的概率分布。

研究团队建议使用流匹配FlowMatching，这是一种扩散框架，可以通过迭代地从前一个分布（例如高斯分布）中传输样本，从目标连续分布中采样。

给定一个真实图像特征X1和由自回归模型编码的条件Q ，在每个训练步骤中，研究团队采样一个时间步 t~U(0,1) 和噪声 X0~N(0,1) 。

DiT学习在Q条件下，在X1方向上预测时间步t处的速度

。

研究团队通过X0和X1之间的简单线性插值来计算Xt：

。

而Vt的解析解可以表示为：

最后，训练目标定义为：

其中θ是扩散变换器的参数，而Vθ(Xt,Q,t) 表示基于实例 (X1,Q) 、时间步t和噪声X0预测的速度。

与离散标记不同，离散标记天生支持基于采样的策略来探索多样的生成路径，而连续表示缺乏这一属性。

具体来说，在基于MSE的训练目标下，对于给定的提示，预测的视觉特征Q几乎变得确定性。

因此，无论视觉解码器是基于VAE还是CLIP+Diffusion架构，输出图像在多次推理运行中几乎保持相同。

这种确定性突显了MSE的一个关键限制：它限制了模型为每个提示生成单一、固定的输出，从而限制了生成多样性。

相比之下，流匹配框架使模型能够继承扩散过程的随机性。这使得模型能够在相同的提示条件下生成多样化的图像样本，从而有助于更广泛地探索输出空间。

然而，这种灵活性是以增加模型复杂性为代价的。与MSE相比，流匹配引入了额外的可学习参数。

在研究团队的实现过程中，研究团队使用了扩散Transformer（DiT），通过经验发现增加其容量可以显著提高性能。

设计选择

统一多模态模型中图像生成的三种设计选择。

所有设计都使用自回归+扩散框架，但其图像生成组件各不相同。

对于流匹配损失，研究团队保持自回归模型冻结，仅微调图像生成模块以保留模型的语言能力。

CLIP+MSE

研究团队使用CLIP将图像编码为64个固定长度的语义丰富的视觉嵌入。如上图 (a) 所示。在推理过程中，给定文本提示，自回归模型预测潜在的视觉特征，随后将其传递给基于扩散的视觉解码器以重建真实图像。

CLIP+流匹配

作为一种替代MSE损失的方法，研究团队使用流匹配损失来训练模型以预测真实CLIP嵌入，如上图 (b)所示。

本质上，推理流程包括两个扩散阶段：第一阶段使用条件视觉特征Q逐步去噪为CLIP嵌入。

第二阶段通过基于扩散的视觉解码器将这些CLIP嵌入转换为真实图像。

这种方法允许在第一阶段进行随机采样，从而在图像生成中实现更大的多样性。

VAE+流匹配

研究团队使用流匹配损失来预测上图 (c)中看到的真实VAE特征。

在推理时，给定提示C ，自回归模型生成视觉特征Q。然后，以Q为条件并在每一步迭代去除噪声，真实图像由VAE解码器生成。

VAE+MSE

因为研究团队的重点是自回归+扩散框架，所以研究团队排除了VAE+MSE方法，因为它们没有包含任何扩散模块。

为了比较各种设计选择，研究团队使用Llama-3.2-1B-Instruct作为自回归模型。研究团队的训练数据总计约2500万个样本。

下图显示，CLIP+流匹配在GenEval和DPG-Bench上都达到了最佳的提示对齐得分，而VAE+流匹配产生了最低（最佳）的FID，表明其具有优越的美学质量。

总体而言，研究团队的实验表明CLIP+流匹配是最有效的设计选择。

统一多模态下的训练策略

在图像生成研究基础上，下一步是开发一个统一的模型，该模型可以同时执行图像理解和图像生成。

使用CLIP + Flow Matching进行图像生成模块的开发。由于图像理解也在CLIP的嵌入空间中运行，在相同的语义空间内对齐这两个任务，从而实现它们的统一。

在此背景下，团队讨论了两种训练策略。

联合训练

联合训练图像理解和图像生成是最为常见做法，这些方法采用了不同的图像生成架构，但都通过混合用于图像生成和理解的数据来进行多任务学习。

序列训练

与其同时训练图像理解和生成，研究团队采用两阶段方法。在第一阶段，研究团队仅训练图像理解模块。在第二阶段，研究团队冻结MLLM主干，并仅训练图像生成模块。

在联合训练设置中，尽管图像理解和生成任务可能互相受益，但两个关键因素影响它们的协同效应：总数据量和图像理解和生成数据之间的数据比例。

相比之下，顺序训练提供了更大的灵活性：能够冻结自回归主干并保持图像理解能力。研究团队可以将所有训练能力专门用于图像生成，避免联合训练中的任何任务间影响。

研究团队最终选择顺序训练来构建研究团队的统一多模态模型。

BLIP3-o：先进的统一多模态模型

基于研究团队的研究结果，研究团队采用CLIP+Flow Matching和顺序训练来开发先进的统一多模态模型BLIP3-o。

模型架构

研究团队开发了两种不同大小的模型：一个是在专有数据上训练的8B参数模型，另一个是仅使用开源数据的4B参数模型。

研究团队跳过了图像理解训练阶段，直接在Qwen 2.5 VL上构建研究团队的图像生成模块。

在8B模型中，研究团队冻结了Qwen2.5-VL-7B-Instruct主干，并训练DiT，总共 1.4B 可训练参数。

4B模型采用了相同的图像生成架构，但使用Qwen2.5-VL-3B-Instruct作为主干。

研究团队利用Lumina-Next模型的架构来构建研究团队的DiT。Lumina-Next模型基于改进的Next-DiT架构，这是一种可扩展且高效的扩散Transformer，专为文本到图像和一般的多模态生成而设计。

阶段1：图像生成的预训练

对于8B模型，研究团队将大约2500万开源数据与额外的3000万专有图像结合。

所有图像标题由Qwen2.5-VL-7B-Instruct生成，平均长度为120个标记。

为了提高对不同提示长度的泛化能力，研究团队还包括了大约 10%（600万）的较短标题，每个标题大约20个标记。

阶段2：图像生成的指令调优

在图像生成预训练阶段之后，研究团队观察到模型在几个方面存在几个弱点：

o 生成复杂的人类手势，例如一个人正在搭箭。

o 生成常见的物体，如各种水果和蔬菜。

o 生成地标，例如，金门大桥。

o 生成简单的文本，例如在街道表面上写着「Salesforce」。

尽管这些类别在预训练时本应被涵盖，但由于研究团队的预训练语料库规模有限，它们没有得到充分处理。

为了解决这个问题，研究团队专门针对这些领域进行指令调优。

对于每个类别，研究团队提示GPT-4o生成大约10k个提示-图像对，创建一个有针对性的数据集，以提高模型处理这些情况的能力。

在图像理解任务中，研究团队在多个数据集上评估基准性能。如表1所示，研究团队的BLIP3-o 8B在大多数基准测试中达到了最佳性能。

在图像生成基准中，如表2所示，BLIP3-o 8B的GenEval得分为0.84，WISE得分为0.62，但在DPG-Bench上得分较低。

由于基于模型的DPG-Bench评估可能不可靠，研究团队在下一节通过继续研究补充这些结果。

研究团队进行了一项人工评估，比较了BLIP3-o 8B和Janus Pro 7B在大约1,000个从DPG-Bench抽取的提示上的表现。

对于每个提示，标注者根据两个指标并排比较图像对：

视觉质量：看图像是否更清晰、美观、布局好。

提示对齐：看图像内容与文本描述是否更匹配。

每个维度都进行了两轮评估，共约3,000次判断。

结果显示，BLIP3-o在视觉质量和提示对齐上都显著优于Janus Pro，尽管后者在表2的DPG分数更高。

两个维度的统计显著性分别为5.05e-06和1.16e-05，说明BLIP3-o的优势可信度非常高。

目前作为第一步，研究团队将专注于图像重建，将图像输入到图像理解视觉编码器中，然后通过图像生成模型进行重建，以无缝连接图像理解和生成。

在此能力的基础上，研究团队将收集指令调优数据集，以使模型适应各种下游应用。

这篇论文系统性探索了混合自回归与扩散架构在统一多模态建模中的应用，重点评估了图像表示、训练目标和训练策略三大核心要素。

实验显示，CLIP特征配合Flow Matching损失在训练效率与生成质量方面表现最佳。

研究团队推出了统一模型系列BLIP3-o，并构建了包含60k条指令的微调数据集BLIP3o-60k，显著提升了模型的提示对齐能力和图像美学质量。

该统一模型也正被拓展应用于图像编辑、视觉对话和逐步视觉推理等任务中。

参考资料：

https://arxiv.org/html/2505.09568v1

https://huggingface.co/datasets/BLIP3o/BLIP3o-60k

https://blip3o.salesforceresearch.ai/

本文来自微信公众号“新智元”，作者：新智元，36氪经授权发布。

CSS 分组和嵌套

上一篇：Why does Google prepend while(1); to their JSON responses?
下一篇：图解如何在博客里嵌套各种代码

谢赛宁SFR等新作，统一多模态BLIP3-o登场，先理解后生成，端掉VAE刷新SOTA

统一多模态下的图像生成与理解

图像编码与重建

变分自编码器（Variational Autoencoders）

CLIP编码器与扩散解码器（CLIP Encoder with Diffusion Decoder）

建模潜在图像表示

设计选择

统一多模态下的训练策略

BLIP3-o：先进的统一多模态模型

模型架构

相关推荐

《最后的信仰》新手开局保姆级指南职业选择、属性加点与开荒策略

邮箱126免费登录入口（邮箱126登录入口电脑版）

电脑网站（电脑网站被劫持怎么办怎么解决）

电脑怎么查看内存条信息（电脑哪里查看内存条信息）

Python中下划线 ‘_’ 的用法，你知道几种

nvidia显卡怎么设置（nvidia显卡怎么设置玩游戏更流畅）

C++第五课:变量的命名规则_c++中变量的命名规则

电脑上如何找回qq密码（用电脑找回qq密码）

一文学会Python的变量命名规则!_python的变量命名有哪些要求

解锁Shell编程:变量_shell $变量