
OpenAI GPT-4O在理解图像,生成和编辑的任务中展示了顶级性能。流行体系结构的一个假设是令牌→自我回归模型→传播模型→图像像素这种混合体系结构结合了自我护理和扩散模型的优势。马里兰州大学,弗吉尼亚理工大学,纽约大学和华盛顿大学的研究人员在其最新研究中采用了一套自动化 +扩散(Unified Multimode Model Blip3-O)。文档标题:Blip3-o:一个完全开放的统一多模型的家族:建筑,培训,数据纸地址:https://arxiv.org/pdf/2505.09568v1github代码:https://github.com/jiuuhaicen/blip3o示范模型: https://huggingface.co/datasets/blip3o/blip3o/blip3o-caption说明fin-funing:https://huggingface.co/datasets/datasets/blip3o indididecideted/blip3o-models在CS。这导致了两个重要问题。真实特征的来源(土壤真实的功能):与VAE或夹子连续功能中编纂图像?特征的一致性:使用MSE丢失或使用流量重合调整预测的特征和现实世界?统一多模式状态下的图像生成研究人员检查了两个图像编码。解密范式:VAE:在低水平像素的功能中编码图像以提高重建质量。但是,当VAE编码器处理较高的分辨率输入时,它会产生更长的矢量序列,从而增加训练期间的计算负载。剪辑 + spread:首先将图像分配给高级别的语义函数,然后通过传播模型使用真实图像,我将重建它。在实际操作中,首先使用夹子获取Fimage膏药,然后根据夹子函数训练扩散模型以重建图像。 ADV这种方法的抗辩是,无论输入图像的分辨率如何,每个图像都可以编码为固定长度的连续向量(作为长度为64的向量)。这种编码方法可以具有更好的图像压缩率。但是,需要额外的培训以使传播模型适应几个剪辑编码器。对于由VAE/剪辑提供的自我抑制模型和实际特征所预测的视觉特征,培训目标有两种类型。 MSE:计算平均误差流的重合:根据认证模型产生的预测函数,扩散变压器通过流量重合损失和广播变压器的输出值进行训练。目的。有三个设计选项:剪辑 + MSE:最小化预测性表示(例如EMU2和SEEDX)之间的MSE以及剪辑的实际表示。生成图像时,LF抑制模型会产生视觉特征。根据此视觉函数,我们使用扩散模型来解码图像。剪辑 +流量比较:使用流量重合的损失传递扩散变压器,以根据身份戒律模型预测的视觉特征来预测剪辑的真实表示。生成图像时,自我抑制模型会产生视觉特征。基于此视觉函数,扩散变压器使用光扩散模型基于此夹子函数来生成剪辑函数并根据此剪辑函数解码图像。整个过程意味着两个传播过程。剪辑函数是第一次生成,并且第二次生成真实图像。 VAE +流动的行为:扩散变压器是使用流量巧合损耗训练的,以根据自我陈述模型预测的视觉特征来预测真实的VAE表示。生成图像时,自我抑制模型GEnore视觉特征。根据此视觉函数,扩散变压器会生成VAE函数,该功能由VAE解码器生成。传奇:在统一的多模式模型中,有三种用于生成图像的设计解决方案。所有方案均为净自动化+使用扩展框架,但是图像生成组件是不同的。在流动损失的情况下,自我代表模型被冷冻,并调整图像生成模块(扩散变压器)以维护模型语言的语言。下图比较了同一配置中这三种解决方案的性能,这表明夹子 +流的巧合可以在快速比对,图像的多样性和视觉质量之间实现最佳平衡。传奇:几个方案的比较研究人员发现了图形,例如,当一代集成到统一模型中时,自我回归模型学习语义水平特征符ICS(夹子)而不是像素级别(VAE)的特征。同时,将流量重合用作训练目标,可以更好地捕获图像分布,丰富样品的多样性并提高视觉质量。同时,扩散过程有两个阶段。与传统的阶段传播模型相比,图像的产生分为两个阶段。第一阶段和扩散变压器的自代模型仅负责仅生成语义函数。第二阶段使用下车扩散模型来完成低水平功能,从而大大降低了训练压力。通过剪辑编码器理解和生成统一的图像,对图像的理解和图像的产生共享相同的语义空间,从而实现了两个统一。研究人员使用持续的训练而不是早期融合。这是由于以下事实,即自我 - 春季模型可以是frozen维持对图像的理解。所有培训资源都集中在图像生成模块中,以避免多任务处理之间的相互干扰。传说:早期融合会同时更新理解和发电的模块,第一个顺序训练(晚融合)独立调整了“理解”,然后冻结脊柱并训练它们“能量”。 BLIP3-O:基于先前比较的统一的多模型模型,研究人员选择了夹子的重合 +流量重合和顺序训练(晚期融合)来构建具有4B和8B参数的BLIP3-O。 ?10%(6 m)(20令牌)4B种族的其他短字母字幕,以改善对简短指示的适应性开源模式:纯25m和文本对的纯开源图形,以及?10%(3M)的简短字幕:GPT-4O:GPT-4O产生60k的高质量示例,改善了迅速的处置和视觉测量。所有代码,模型和数据都在另一个之后打开。试试看!传奇:blip3-o显示样本研究人员发现,模型可以快速适应GPT-4O风格,从而显着改善以下说明和视觉质量:标题:对图像性能的理解:结论图像结论具有基线性能和手动评估的图像的结论,并且该文档有系统地将多态建模组合在网络和分发架构中的多态建模,包括三个重要的研究,并将其评估为重要的一半,并将其评估为重要的一半。 图像。功能),培训目标(流量与巧合与MSE),培训(初始)和培训(FUS)策略(MSE)和培训(MSE)离子与晚期融合。实验结果表明,剪辑与流量损失的结合不仅会提高训练速度,而且还提高了生产质量。根据这些发现,本文档介绍了一系列高度统一的多模型Blip3-O,该模型调整了通过BLIP3O-60K 60,000个说明设置的数据,大大改善了快速对齐效果和视觉美学。研究人员还积极地对模型进行了应用研究,包括迭代版本的图像,视觉对话和视觉推论逐步进行。