多模态架构演进

从"编码器-连接器-LLM"的模块化设计，到原生多模态的深度融合，架构范式正在经历根本性变革。

架构范式对比

范式	代表模型	优势	劣势
模块化	LLaVA, BLIP-2	复用预训练组件	模态割裂
原生多模态	Fuyu, Chameleon	深度融合	训练成本高

Fuyu-8B：纯 Decoder 架构

Fuyu 代表了向原生多模态迈进的重要一步，完全摒弃独立视觉编码器。

核心设计

image-newline 机制

问题：Transformer 如何理解图像的二维空间结构？

解决方案：引入特殊 Token <image-newline>

[patch_1] [patch_2] ... [patch_14] <image-newline>
[patch_15] [patch_16] ... [patch_28] <image-newline>
...
[patch_183] [patch_184] ... [patch_196] <image-newline>
[文本 Token 序列]

效果：

模型像处理换行符一样理解图像行结构
天然支持任意分辨率和宽高比
无需复杂的位置编码插值

架构优势

特性	传统架构	Fuyu
组件数量	ViT + Connector + LLM	仅 LLM
分辨率支持	需要调整	任意分辨率
部署复杂度	需维护多个模型	单一模型
训练统一性	多阶段	端到端

局限性

计算成本

由于没有视觉编码器的压缩，高分辨率图像会产生大量 Token，显著增加推理成本。

Qwen-VL：多阶段特征融合

Qwen-VL 在"编码器-连接器-LLM"框架内进行深度优化。

DeepStack 融合

传统方法：仅使用 ViT 最后一层输出

Qwen-VL：融合多层特征

优势：

低层特征：纹理、边缘细节
高层特征：语义、对象概念
对 OCR 和文档理解尤为重要

三阶段训练管线

阶段	数据规模	训练目标	LLM 状态
预训练	1.4B 图文对	视觉-语言对齐	冻结
多任务微调	~100M 样本	任务能力	解冻
指令微调	~1M 样本	对话交互	解冻

特殊能力

能力	实现方式
细粒度 OCR	高分辨率输入 + DeepStack
目标定位	Bounding Box Token 化
多图理解	图像分隔符 Token

InternLM-XComposer：交织生成

InternLM-XComposer 系列专注于图文交织生成。

架构特点

Partial LoRA：

仅在部分 LLM 层插入 LoRA
平衡视觉适配与语言能力保持

图文交织能力

用户：请介绍一下这座建筑的历史
模型：这是埃菲尔铁塔，建于1889年...
      [生成的历史图片]
      它最初是为巴黎世博会建造的...
      [生成的世博会场景图片]

Chameleon：原生混合模态

Meta 的 Chameleon 实现了真正的原生多模态。

统一 Token 空间

关键技术

技术	作用
VQ-VAE	将图像离散化为 Token
统一词表	图像/文本 Token 无差别处理
QK-Norm	稳定多模态训练
Dropout 复用	防止模态偏向

优势与挑战

优势	挑战
✅ 真正的端到端	❌ VQ-VAE 重建损失
✅ 任意模态组合生成	❌ 训练极其昂贵
✅ 统一架构简洁	❌ 图像生成质量受限

PaliGemma：Google 的多模态方案

架构设计

特点

特性	说明
视觉编码器	SigLIP（改进的 CLIP）
LLM	Gemma 2B
连接器	简单线性投影
训练数据	WebLI 多语言数据

架构选型指南

按需求选择

需求	推荐架构	理由
快速部署	LLaVA	简单有效
OCR/文档	Qwen-VL	DeepStack 细节
任意分辨率	Fuyu	原生支持
图文交织	XComposer	专门优化
统一生成	Chameleon	原生多模态

性能-效率权衡

性能 ↑
│
│    ★ Qwen-VL-Max
│  ★ GPT-4V
│    ★ Chameleon
│  ★ LLaVA-1.6
│ ★ Fuyu-8B
│★ LLaVA-1.5
│
└──────────────────→ 效率 ↑

参考资源

论文/项目	主题
Fuyu-8B	纯 Decoder 架构
Qwen-VL	多阶段融合
InternLM-XComposer	图文交织
Chameleon	原生多模态
PaliGemma	Google 方案

多模态架构演进 ​

架构范式对比 ​

Fuyu-8B：纯 Decoder 架构 ​

核心设计 ​

image-newline 机制 ​

架构优势 ​

局限性 ​

Qwen-VL：多阶段特征融合 ​

DeepStack 融合 ​

三阶段训练管线 ​

特殊能力 ​

InternLM-XComposer：交织生成 ​

架构特点 ​

图文交织能力 ​

Chameleon：原生混合模态 ​

统一 Token 空间 ​

关键技术 ​

优势与挑战 ​

PaliGemma：Google 的多模态方案 ​

架构设计 ​

特点 ​

架构选型指南 ​

按需求选择 ​

性能-效率权衡 ​

参考资源 ​