谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA
zhezhongyun 2025-05-26 20:14 18 浏览
BLIP3-o是一个全开源统一多模态模型,结合自回归与扩散架构,采用「先理解后生成」策略,创新地使用CLIP特征与Flow Matching训练,显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先,也正拓展至图像编辑和视觉对话等多模态任务。
多模态模型卷到头了?不,真正的革新才刚开始。
就在最近,Salesforce Research携手UMD、VT、NYU、UW等机构的研究人员,发布了一组完全开源的统一多模态模型BLIP3-o。
BLIP3-o采用「先理解后生成」训练策略,实现了图像理解与生成的有效统一,并基于GPT-4o构建了BLIP3o-60k数据集。
论文地址:
https://arxiv.org/abs/2505.09568
BLIP3-o的架构包括两部分,理解部分使用CLIP对图像进行编码;生成部分,自回归模型生成中间视觉特征,作为DiT的输入,采用CLIP+Flow Matching策略生成图像特征。
结果显示,BLIP3-o系列在提示对齐和图像美学方面,都有显著的提升。
BLIP3-o 8B在1024×1024分辨率下的结果
同时,BLIP3-o的Demo体验网站也已上线。
网站地址:
https://blip3o.salesforceresearch.ai
具体到这篇论文中,研究团队围绕以下三个关键维度进行了深入探讨:
· 图像表示方式:将图像编码为高层级的语义特征(例如CLIP图像编码器),而不是低层级的像素特征(例如基于VAE的编码器)
· 训练目标函数:使用Flow Matching代替MSE,提升图像生成质量。
· 训练策略:采用顺序训练策略效果最佳,先用图像理解任务训练自回归模型,再在图像生成阶段保持其参数冻结。
统一多模态下的图像生成与理解
OpenAI的GPT-4o最近展示的高质量图像生成和强大的多模态理解能力,激发了人们对于多模态范式的兴趣。。
关于OpenAI的GPT-4o架构的猜测中,最有可能的一种是采用了一种混合管道结构:
这表明自回归和扩散模型可结合起来。受这种混合设计的启发,研究团队在研究中采用了自回归+扩散框架。
在这种框架下,最优架构方案仍不明确。自回归模型负责生成连续的中间视觉特征,用以逼近真实的图像表示,但这带来了两个关键问题:
首先,如何定义「真实」的图像嵌入?应该选择VAE还是CLIP来将图像编码为连续特征?
其次,如何建模和对齐这些生成的视觉特征与真实特征之间的分布?是采用简单的MSE损失,还是使用更复杂的扩散方法?
为了解决这些问题,研究团队在后续部分中对不同的架构设计、特征表示方式和建模策略进行了系统性探索。
研究团队首先探讨如何通过编码器-解码器架构将图像表示为连续嵌入,这在学习效率和生成质量方面起着基础性作用。
图像编码与重建
图像生成通常首先使用编码器将图像编码为连续的潜在嵌入,然后使用解码器从该潜在嵌入中重建图像。这种编码-解码流程可以有效地降低图像生成中输入空间的维度,从而提高训练效率。研究讨论了两种目前广泛使用的方式:
变分自编码器(Variational Autoencoders)
变分自编码器(VAE)是一类生成模型,它们学习将图像编码到一个结构化的连续潜在空间中。编码器近似给定输入图像的潜在变量的后验分布,而解码器从这个潜在分布中抽取样本重建图像。
潜在扩散模型通过学习建模压缩潜在表示的分布而不是原始图像像素来构建在这个框架上。通过在VAE潜在空间中操作,这些模型显著降低了输出空间的维度,从而降低了计算成本并使训练更加高效。
CLIP编码器与扩散解码器(CLIP Encoder with Diffusion Decoder)
CLIP模型已成为图像理解任务的基础编码器,因为它通过大规模图像-文本对的对比训练能够从图像中提取丰富、高级的语义特征。
然而,利用这些特征进行图像生成仍然是一个不小的挑战,因为CLIP最初并不是为重建任务设计的。
针对这个问题,团队通过将基于CLIP的编码器与基于扩散的解码器配对,提出使用EVA-CLIP将图像编码为连续的视觉嵌入,并通过从初始化的扩散模型进行重建。
在训练过程中,扩散解码器被微调以使用来自EVA-CLIP的视觉嵌入作为条件,从高斯噪声中恢复原始图像,而EVA-CLIP保持冻结。
这一过程有效地将CLIP和扩散模型结合成一个图像自编码器:CLIP编码器将图像压缩为语义丰富的潜在嵌入,而基于扩散的解码器则从这些嵌入中重建图像。
建模潜在图像表示
在获得连续的图像嵌入后,研究团队使用自回归架构对其进行建模。
给定用户提示(比如「一个戴着草帽的年轻雀斑女子」),研究团队首先使用自回归模型的输入嵌入层将提示编码为嵌入向量序列C ,并将可学习的查询向量Q附加到C ,其中Q是随机初始化并在训练中优化的。
当组合序列[C;Q]通过自回归Transformer处理时, Q学会关注并从提示C中提取相关的语义信息。
生成的Q被解释为由自回归模型生成的中间视觉特征或潜在表示,并被训练以逼近真实图像特征X。
接下来,研究团队介绍两个训练目标并进行了对比:均方误差和流匹配,使Q与真实图像嵌入X对齐。
均方误差(MSE)
均方误差损失是一个简单且广泛使用的连续图像嵌入学习目标。
给定由自回归模型生成的预测视觉特征Q和真实图像特征X ,研究团队首先应用一个可学习的线性投影来对齐Q和X的维度。然后将MSE损失公式化为:
其中W表示可学习的投影矩阵。
流匹配(Flow Matching )
仅使用MSE损失只能使预测的图像特征Q与目标分布的均值对齐。理想的训练目标应能建模连续图像表示的概率分布。
研究团队建议使用流匹配FlowMatching,这是一种扩散框架,可以通过迭代地从前一个分布(例如高斯分布)中传输样本,从目标连续分布中采样。
给定一个真实图像特征X1和由自回归模型编码的条件Q ,在每个训练步骤中,研究团队采样一个时间步 t~U(0,1) 和噪声 X0~N(0,1) 。
DiT学习在Q条件下,在X1方向上预测时间步t处的速度
。
研究团队通过X0和X1之间的简单线性插值来计算Xt:
。
而Vt的解析解可以表示为:
最后,训练目标定义为:
其中θ是扩散变换器的参数,而Vθ(Xt,Q,t) 表示基于实例 (X1,Q) 、时间步t和噪声X0预测的速度。
与离散标记不同,离散标记天生支持基于采样的策略来探索多样的生成路径,而连续表示缺乏这一属性。
具体来说,在基于MSE的训练目标下,对于给定的提示,预测的视觉特征Q几乎变得确定性。
因此,无论视觉解码器是基于VAE还是CLIP+Diffusion架构,输出图像在多次推理运行中几乎保持相同。
这种确定性突显了MSE的一个关键限制:它限制了模型为每个提示生成单一、固定的输出,从而限制了生成多样性。
相比之下,流匹配框架使模型能够继承扩散过程的随机性。这使得模型能够在相同的提示条件下生成多样化的图像样本,从而有助于更广泛地探索输出空间。
然而,这种灵活性是以增加模型复杂性为代价的。与MSE相比,流匹配引入了额外的可学习参数。
在研究团队的实现过程中,研究团队使用了扩散Transformer(DiT),通过经验发现增加其容量可以显著提高性能。
设计选择
统一多模态模型中图像生成的三种设计选择。
所有设计都使用自回归+扩散框架,但其图像生成组件各不相同。
对于流匹配损失,研究团队保持自回归模型冻结,仅微调图像生成模块以保留模型的语言能力。
CLIP+MSE
研究团队使用CLIP将图像编码为64个固定长度的语义丰富的视觉嵌入。如上图 (a) 所示。在推理过程中,给定文本提示,自回归模型预测潜在的视觉特征,随后将其传递给基于扩散的视觉解码器以重建真实图像。
CLIP+流匹配
作为一种替代MSE损失的方法,研究团队使用流匹配损失来训练模型以预测真实CLIP嵌入,如上图 (b)所示。
本质上,推理流程包括两个扩散阶段:第一阶段使用条件视觉特征Q逐步去噪为CLIP嵌入。
第二阶段通过基于扩散的视觉解码器将这些CLIP嵌入转换为真实图像。
这种方法允许在第一阶段进行随机采样,从而在图像生成中实现更大的多样性。
VAE+流匹配
研究团队使用流匹配损失来预测上图 (c)中看到的真实VAE特征。
在推理时,给定提示C ,自回归模型生成视觉特征Q。然后,以Q为条件并在每一步迭代去除噪声,真实图像由VAE解码器生成。
VAE+MSE
因为研究团队的重点是自回归+扩散框架,所以研究团队排除了VAE+MSE方法,因为它们没有包含任何扩散模块。
为了比较各种设计选择,研究团队使用Llama-3.2-1B-Instruct作为自回归模型。研究团队的训练数据总计约2500万个样本。
下图显示,CLIP+流匹配在GenEval和DPG-Bench上都达到了最佳的提示对齐得分,而VAE+流匹配产生了最低(最佳)的FID,表明其具有优越的美学质量。
总体而言,研究团队的实验表明CLIP+流匹配是最有效的设计选择。
统一多模态下的训练策略
在图像生成研究基础上,下一步是开发一个统一的模型,该模型可以同时执行图像理解和图像生成。
使用CLIP + Flow Matching进行图像生成模块的开发。由于图像理解也在CLIP的嵌入空间中运行,在相同的语义空间内对齐这两个任务,从而实现它们的统一。
在此背景下,团队讨论了两种训练策略。
联合训练
联合训练图像理解和图像生成是最为常见做法,这些方法采用了不同的图像生成架构,但都通过混合用于图像生成和理解的数据来进行多任务学习。
序列训练
与其同时训练图像理解和生成,研究团队采用两阶段方法。在第一阶段,研究团队仅训练图像理解模块。在第二阶段,研究团队冻结MLLM主干,并仅训练图像生成模块。
在联合训练设置中,尽管图像理解和生成任务可能互相受益,但两个关键因素影响它们的协同效应:总数据量和图像理解和生成数据之间的数据比例。
相比之下,顺序训练提供了更大的灵活性:能够冻结自回归主干并保持图像理解能力。研究团队可以将所有训练能力专门用于图像生成,避免联合训练中的任何任务间影响。
研究团队最终选择顺序训练来构建研究团队的统一多模态模型。
BLIP3-o:先进的统一多模态模型
基于研究团队的研究结果,研究团队采用CLIP+Flow Matching和顺序训练来开发先进的统一多模态模型BLIP3-o。
模型架构
研究团队开发了两种不同大小的模型:一个是在专有数据上训练的8B参数模型,另一个是仅使用开源数据的4B参数模型。
研究团队跳过了图像理解训练阶段,直接在Qwen 2.5 VL上构建研究团队的图像生成模块。
在8B模型中,研究团队冻结了Qwen2.5-VL-7B-Instruct主干,并训练DiT,总共 1.4B 可训练参数。
4B模型采用了相同的图像生成架构,但使用Qwen2.5-VL-3B-Instruct作为主干。
研究团队利用Lumina-Next模型的架构来构建研究团队的DiT。Lumina-Next模型基于改进的Next-DiT架构,这是一种可扩展且高效的扩散Transformer,专为文本到图像和一般的多模态生成而设计。
阶段1:图像生成的预训练
对于8B模型,研究团队将大约2500万开源数据与额外的3000万专有图像结合。
所有图像标题由Qwen2.5-VL-7B-Instruct生成,平均长度为120个标记。
为了提高对不同提示长度的泛化能力,研究团队还包括了大约 10%(600万)的较短标题,每个标题大约20个标记。
阶段2:图像生成的指令调优
在图像生成预训练阶段之后,研究团队观察到模型在几个方面存在几个弱点:
o 生成复杂的人类手势,例如一个人正在搭箭。
o 生成常见的物体,如各种水果和蔬菜。
o 生成地标,例如,金门大桥。
o 生成简单的文本,例如在街道表面上写着「Salesforce」。
尽管这些类别在预训练时本应被涵盖,但由于研究团队的预训练语料库规模有限,它们没有得到充分处理。
为了解决这个问题,研究团队专门针对这些领域进行指令调优。
对于每个类别,研究团队提示GPT-4o生成大约10k个提示-图像对,创建一个有针对性的数据集,以提高模型处理这些情况的能力。
在图像理解任务中,研究团队在多个数据集上评估基准性能。如表1所示,研究团队的BLIP3-o 8B在大多数基准测试中达到了最佳性能。
在图像生成基准中,如表2所示,BLIP3-o 8B的GenEval得分为0.84,WISE得分为0.62,但在DPG-Bench上得分较低。
由于基于模型的DPG-Bench评估可能不可靠,研究团队在下一节通过继续研究补充这些结果。
研究团队进行了一项人工评估,比较了BLIP3-o 8B和Janus Pro 7B在大约1,000个从DPG-Bench抽取的提示上的表现。
对于每个提示,标注者根据两个指标并排比较图像对:
视觉质量:看图像是否更清晰、美观、布局好。
提示对齐:看图像内容与文本描述是否更匹配。
每个维度都进行了两轮评估,共约3,000次判断。
结果显示,BLIP3-o在视觉质量和提示对齐上都显著优于Janus Pro,尽管后者在表2的DPG分数更高。
两个维度的统计显著性分别为5.05e-06和1.16e-05,说明BLIP3-o的优势可信度非常高。
目前作为第一步,研究团队将专注于图像重建,将图像输入到图像理解视觉编码器中,然后通过图像生成模型进行重建,以无缝连接图像理解和生成。
在此能力的基础上,研究团队将收集指令调优数据集,以使模型适应各种下游应用。
这篇论文系统性探索了混合自回归与扩散架构在统一多模态建模中的应用,重点评估了图像表示、训练目标和训练策略三大核心要素。
实验显示,CLIP特征配合Flow Matching损失在训练效率与生成质量方面表现最佳。
研究团队推出了统一模型系列BLIP3-o,并构建了包含60k条指令的微调数据集BLIP3o-60k,显著提升了模型的提示对齐能力和图像美学质量。
该统一模型也正被拓展应用于图像编辑、视觉对话和逐步视觉推理等任务中。
参考资料:
https://arxiv.org/html/2505.09568v1
https://huggingface.co/datasets/BLIP3o/BLIP3o-60k
https://blip3o.salesforceresearch.ai/
本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。
相关推荐
- Angular UI组件库入门指南 - 如何安装和开始使用(一)
-
本文主要介绍如何安装和开始使用KendoUIforAngular。首先完成安装步骤。然后创建一个简单的应用程序,其中包含一些KendoUIforAngular组件,应用程序源代码可供您参考...
- SPSS22: 3.1.3 数据管理—复制数据属性
-
内容摘自《SPSS常用统计分析教程(SPSS22.0中英文版)(第4版)》3.1.3复制数据属性复制数据属性(CopyDataProperties)可用于建立相同调查问卷的空白数据集,或者复制其...
- 妙用Excel制作漂亮工整的工资条(excel表格中如何制作工资条)
-
工资条的制作方法并不难,但如何用Excel把工资条做得更美观、更有效率,可就要花费一点小心思了。许多人或许已经习惯了用工资明细表做员工工资统计并向上级汇报,将表中的条目慢慢复制粘贴然后打印给员工,这样...
- 如何运用EXCEL制作员工工资条,你造吗?
-
每个月工资发放之后,正规的公司应发给每个员工一个工资条。上面有员工当月工资的详细构成。但不能将工资明细表剪条发放,因为每个数字缺少对应项目,这就需要重新制作一张专门用来打印的工资条。作为劳动者,应该妥...
- 鸿蒙仓颉语言开发实战教程:实现商品分类页
-
今天继续为大家带来仓颉语言开发商城应用的实战教程,今天的内容是实现商品分类页。分类页面要在基本布局的基础上增加一些动态效果,比如点击状态的切换和两个列表容器的联动。下面为大家详细介绍。分类列表先来看左...
- 鸿蒙开发实战:一多开发之缩放布局
-
在HarmonyOS中,使用ArkTS语法进行自适应布局时,缩放布局是一种重要的布局方式。它允许组件根据外部容器的尺寸变化,按照预设的比例或权重调整自身的大小,从而确保在不同设备上都能呈现出良好的视觉...
- 基于WPF的电能质量检测系统上位机软件设计
-
郑恒持,蒋丁宇,卢兴泉,刘泊江(大连海事大学轮机工程学院,辽宁大连116026)摘要:电能质量直接影响着电力系统能否安全运行,为了能及时可靠地检测电能质量,采用全新的WindowsPresen...
- HarmonyOS实战:Tab顶部滑动悬停功能实现
-
前言日常开发过程中,遇到这种Scroll嵌套List列表滑动顶部悬停的场景十分常见,在鸿蒙开发时也正好实现了这个功能,本篇文章将带你一步步实现Tab顶部悬停的效果,建议点赞收藏!实现效果先...
- Axure教程:高级搜索(axure搜索功能怎么做)
-
在原型中,搜索是一个常见的交互设计。但不少同学因为技能不熟悉就没有做对应的交互效果。这篇文章,作者分享了设计搜索功能的整个流程,相信看完你也能做一个很牛逼的交互。高级搜索可以通过使用精确的关键词或短语...
- Excel小技巧: 如何设置自动列宽适应内容
-
我们在整理Excel表格的时候,通常会碰到单元格列宽混乱的情况(如下图所示),这会导致数据显示不完整或浪费空间导致打印不全,每次手动调整列宽都会费时费力,下面教你三个方法,让你一键设置自动列宽,适应单...
- 用好6个公式 Excel随意查询(excel中查询功能怎么用公式)
-
Excel表格一般会储存大量数据,我们可能不是每次都需要使用其中的所有数据,大部分时候只用到其中的一部分,所以数据查询功能就变得非常重要。为此,Excel本身也提供了多少查询方法,供我们使用。首先我们...
- 夏日PC消暑指南:机箱风道与风扇选择
-
进入六月以后北京的天气真是热得让人感觉喘不过气,大家天天打交道的笔记本和台式机更是连人都不如了,所谓热成狗真是一点也不夸张。年年大家在防暑抗高温这个问题上都是八仙过海各显神通,但是很多人光顾着自己凉快...
- Excel VBA必学技巧:用厘米设置单元格大小,办公效率翻倍
-
痛点:Excel默认单位太反人类!你是否经常遇到这些问题:-想设置精确的单元格尺寸,却只能用模糊的"字符宽度"和"磅值"?-设计打印报表时,毫米级的误差导致格式错乱...
- CSS小知识,分享14个你可能还未用上但又实用的CSS属性(下)
-
大家好,在上一篇文章里CSS小知识,分享14个你可能还未用上但又实用的CSS属性(上)我们一起学习了上半部分,这篇文章我们我们继续学习下半部分。八、CSSShakeEffect晃动效果CSS...
- 总结雅虎前端性能优化技巧(16条)(雅虎引擎还能用吗)
-
前言在日常开发中,有很多场景需要我们去做好前端优化,为了防止遗忘,加深记忆,今天参阅了一些资料以及自己的一些总结,梳理出来15条优化技巧。1.合并文件css、js合并,减少http请求数,每次http...
- 一周热门
- 最近发表
- 标签列表
-
- HTML 教程 (33)
- HTML 简介 (35)
- HTML 实例/测验 (32)
- HTML 测验 (32)
- JavaScript 和 HTML DOM 参考手册 (32)
- HTML 拓展阅读 (30)
- HTML常用标签 (29)
- HTML文本框样式 (31)
- HTML滚动条样式 (34)
- HTML5 浏览器支持 (33)
- HTML5 新元素 (33)
- HTML5 WebSocket (30)
- HTML5 代码规范 (32)
- HTML5 标签 (717)
- HTML5 标签 (已废弃) (75)
- HTML5电子书 (32)
- HTML5开发工具 (34)
- HTML5小游戏源码 (34)
- HTML5模板下载 (30)
- HTTP 状态消息 (33)
- HTTP 方法:GET 对比 POST (33)
- 键盘快捷键 (35)
- 标签 (226)
- HTML button formtarget 属性 (30)
- CSS 水平对齐 (Horizontal Align) (30)