Skip to content

多模态架构演进

从"编码器-连接器-LLM"的模块化设计,到原生多模态的深度融合,架构范式正在经历根本性变革。


架构范式对比

范式代表模型优势劣势
模块化LLaVA, BLIP-2复用预训练组件模态割裂
原生多模态Fuyu, Chameleon深度融合训练成本高

Fuyu-8B:纯 Decoder 架构

Fuyu 代表了向原生多模态迈进的重要一步,完全摒弃独立视觉编码器

核心设计

image-newline 机制

问题:Transformer 如何理解图像的二维空间结构?

解决方案:引入特殊 Token <image-newline>

[patch_1] [patch_2] ... [patch_14] <image-newline>
[patch_15] [patch_16] ... [patch_28] <image-newline>
...
[patch_183] [patch_184] ... [patch_196] <image-newline>
[文本 Token 序列]

效果

  • 模型像处理换行符一样理解图像行结构
  • 天然支持任意分辨率和宽高比
  • 无需复杂的位置编码插值

架构优势

特性传统架构Fuyu
组件数量ViT + Connector + LLM仅 LLM
分辨率支持需要调整任意分辨率
部署复杂度需维护多个模型单一模型
训练统一性多阶段端到端

局限性

计算成本

由于没有视觉编码器的压缩,高分辨率图像会产生大量 Token,显著增加推理成本。


Qwen-VL:多阶段特征融合

Qwen-VL 在"编码器-连接器-LLM"框架内进行深度优化。

DeepStack 融合

传统方法:仅使用 ViT 最后一层输出

Qwen-VL:融合多层特征

优势

  • 低层特征:纹理、边缘细节
  • 高层特征:语义、对象概念
  • 对 OCR 和文档理解尤为重要

三阶段训练管线

阶段数据规模训练目标LLM 状态
预训练1.4B 图文对视觉-语言对齐冻结
多任务微调~100M 样本任务能力解冻
指令微调~1M 样本对话交互解冻

特殊能力

能力实现方式
细粒度 OCR高分辨率输入 + DeepStack
目标定位Bounding Box Token 化
多图理解图像分隔符 Token

InternLM-XComposer:交织生成

InternLM-XComposer 系列专注于图文交织生成

架构特点

Partial LoRA

  • 仅在部分 LLM 层插入 LoRA
  • 平衡视觉适配与语言能力保持

图文交织能力

用户:请介绍一下这座建筑的历史
模型:这是埃菲尔铁塔,建于1889年...
      [生成的历史图片]
      它最初是为巴黎世博会建造的...
      [生成的世博会场景图片]

Chameleon:原生混合模态

Meta 的 Chameleon 实现了真正的原生多模态

统一 Token 空间

关键技术

技术作用
VQ-VAE将图像离散化为 Token
统一词表图像/文本 Token 无差别处理
QK-Norm稳定多模态训练
Dropout 复用防止模态偏向

优势与挑战

优势挑战
✅ 真正的端到端❌ VQ-VAE 重建损失
✅ 任意模态组合生成❌ 训练极其昂贵
✅ 统一架构简洁❌ 图像生成质量受限

PaliGemma:Google 的多模态方案

架构设计

特点

特性说明
视觉编码器SigLIP(改进的 CLIP)
LLMGemma 2B
连接器简单线性投影
训练数据WebLI 多语言数据

架构选型指南

按需求选择

需求推荐架构理由
快速部署LLaVA简单有效
OCR/文档Qwen-VLDeepStack 细节
任意分辨率Fuyu原生支持
图文交织XComposer专门优化
统一生成Chameleon原生多模态

性能-效率权衡

性能 ↑

│    ★ Qwen-VL-Max
│  ★ GPT-4V
│    ★ Chameleon
│  ★ LLaVA-1.6
│ ★ Fuyu-8B
│★ LLaVA-1.5

└──────────────────→ 效率 ↑

参考资源

论文/项目主题
Fuyu-8B纯 Decoder 架构
Qwen-VL多阶段融合
InternLM-XComposer图文交织
Chameleon原生多模态
PaliGemmaGoogle 方案

基于 VitePress 构建