BAGEL：新一代开源多模态大模型，理解与生成能力超越Qwen2.5-VL-🎉数字奇遇🎉

图片[1]-BAGEL：新一代开源多模态大模型，理解与生成能力超越Qwen2.5-VL-🎉数字奇遇🎉

BAGEL 是一个由字节跳动 Seed 团队推出的开源多模态基础模型，拥有 70 亿活跃参数（总共 140 亿）。它在海量交错的多模态数据上进行训练，在标准多模态理解排行榜上优于 Qwen2.5-VL 和 InternVL-2.5 等当前顶级开源 VLM，并且在文本到图像生成质量上与 SD3 等强大的专业生成器相媲美。更重要的是，BAGEL 在经典图像编辑场景中表现出比领先的开源模型更出色的定性结果。此外，它还扩展到自由形式的视觉操作、多视图合成和世界导航，这些能力构成了超出先前图像编辑模型范围的“世界建模”任务。

**核心方法：混合专家 Transformer (MoT) 架构**

BAGEL 采用混合专家 Transformer (MoT) 架构，以最大限度地提高模型从丰富多样的多模态信息中学习的能力。遵循容量最大化的相同原则，它利用两个单独的编码器来捕获图像的像素级和语义级特征。总体框架遵循下一个 Token 预测范式，其中模型被训练为预测下一组语言或视觉 Token 作为压缩目标。

BAGEL 通过在跨越语言、图像、视频和 Web 数据的大量交错多模态 Token 上进行预训练、持续训练和监督微调来扩展 MoT 的容量。它在标准理解和生成基准测试中超越了开源模型，并展示了先进的上下文多模态能力，例如自由形式的图像编辑、未来帧预测、3D 操作、世界导航和顺序推理。

**涌现特性**

随着使用更多多模态 Token 扩大 BAGEL 的预训练规模，可以观察到理解、生成和编辑任务的性能持续提升。不同的能力出现在不同的训练阶段——多模态理解和生成出现较早，其次是基本编辑，而复杂的智能编辑出现较晚。这种分阶段的进展表明了一种涌现模式，其中高级多模态推理建立在良好形成的基础技能之上。消融研究进一步表明，结合 VAE 和 ViT 特征可以显着提高智能编辑，这突出了视觉语义上下文在实现复杂多模态推理中的重要性，并进一步支持了其在高级功能涌现中的作用。

**使用方法：快速上手**

以下是使用 BAGEL 的快速入门步骤：

1. **环境设置：**
* 克隆 GitHub 仓库：`git clone https://github.com/bytedance-seed/BAGEL.git`
* 进入 BAGEL 目录：`cd BAGEL`
* 创建并激活 conda 环境：
* `conda create -n bagel python=3.10 -y`
* `conda activate bagel`
* 安装依赖：`pip install -r requirements.txt`
2. **下载预训练模型：**
* 使用 `huggingface_hub` 库下载预训练模型：

“`python
from huggingface_hub import snapshot_download

save_dir = “/path/to/save/BAGEL-7B-MoT”
repo_id = “ByteDance-Seed/BAGEL-7B-MoT”
cache_dir = save_dir + “/cache”
snapshot_download(cache_dir=cache_dir, local_dir=save_dir, repo_id=repo_id, local_dir_use_symlinks=False, resume_download=True, allow_patterns=[“*.json”, “*.safetensors”, “*.bin”, “*.py”, “*.md”, “*.txt”], )
“`

3. **开始推理：**
* 运行 `inference.ipynb` Jupyter Notebook 开始使用 BAGEL。
4. **使用 Gradio WebUI：**
* 安装 Gradio：`pip install gradio`
* 运行 `app.py` 启动 WebUI：`python app.py`

**训练和评估**

* **训练：** 运行 `scripts/train.sh` 脚本进行训练。可以根据需要修改脚本中的变量。
* **评估：** 提供了 VLM、T2I 和编辑基准测试的评估脚本。

**关键参数**

在推理过程中，以下超参数可以调整以控制模型的行为：

* `cfg_text_scale`: 控制模型遵循文本提示的程度。典型范围：4.0–8.0。
* `cfg_image_scale`: 控制模型保留输入图像细节的程度。典型范围：1.0–2.0。
* `cfg_interval`: 应用 CFG 的去噪步骤的比例。典型值：[0.4, 1.0]。
* `timestep_shift`: 移动去噪步骤的分布。
* `num_timesteps`: 总去噪步骤。典型值：50。
* `cfg_renorm_min`: CFG-Renorm 的最小值。
* `cfg_renorm_type`: CFG-Renorm 方法（global, channel, text_channel）。

**总结**

BAGEL 代表了开源多模态模型领域的一项重大进步。其强大的理解和生成能力、先进的编辑功能以及潜在的“世界建模”能力使其成为研究人员和开发人员的强大工具。随着模型的不断发展和改进，BAGEL 有望在各种多模态应用中发挥关键作用。

**SEO 关键词：** 多模态模型, 开源 VLM, 图像编辑

**标签：** 人工智能, 深度学习, 自然语言处理

ByteDance-Seed/Bagel
https://github.com/ByteDance-Seed/Bagel

文章版权归作者所有，未经允许请勿转载。

THE END