BAGEL:新一代开源多模态大模型,理解与生成能力超越Qwen2.5-VL

图片[1]-BAGEL:新一代开源多模态大模型,理解与生成能力超越Qwen2.5-VL-✨️免费用✅️

BAGEL 是一个由字节跳动 Seed 团队推出的开源多模态基础模型,拥有 70 亿活跃参数(总共 140 亿)。它在海量交错的多模态数据上进行训练,在标准多模态理解排行榜上优于 Qwen2.5-VL 和 InternVL-2.5 等当前顶级开源 VLM,并且在文本到图像生成质量上与 SD3 等强大的专业生成器相媲美。更重要的是,BAGEL 在经典图像编辑场景中表现出比领先的开源模型更出色的定性结果。此外,它还扩展到自由形式的视觉操作、多视图合成和世界导航,这些能力构成了超出先前图像编辑模型范围的“世界建模”任务。

**核心方法:混合专家 Transformer (MoT) 架构**

BAGEL 采用混合专家 Transformer (MoT) 架构,以最大限度地提高模型从丰富多样的多模态信息中学习的能力。遵循容量最大化的相同原则,它利用两个单独的编码器来捕获图像的像素级和语义级特征。总体框架遵循下一个 Token 预测范式,其中模型被训练为预测下一组语言或视觉 Token 作为压缩目标。

BAGEL 通过在跨越语言、图像、视频和 Web 数据的大量交错多模态 Token 上进行预训练、持续训练和监督微调来扩展 MoT 的容量。它在标准理解和生成基准测试中超越了开源模型,并展示了先进的上下文多模态能力,例如自由形式的图像编辑、未来帧预测、3D 操作、世界导航和顺序推理。

**涌现特性**

随着使用更多多模态 Token 扩大 BAGEL 的预训练规模,可以观察到理解、生成和编辑任务的性能持续提升。不同的能力出现在不同的训练阶段——多模态理解和生成出现较早,其次是基本编辑,而复杂的智能编辑出现较晚。这种分阶段的进展表明了一种涌现模式,其中高级多模态推理建立在良好形成的基础技能之上。消融研究进一步表明,结合 VAE 和 ViT 特征可以显着提高智能编辑,这突出了视觉语义上下文在实现复杂多模态推理中的重要性,并进一步支持了其在高级功能涌现中的作用。

**使用方法:快速上手**

以下是使用 BAGEL 的快速入门步骤:

1. **环境设置:**
* 克隆 GitHub 仓库:`git clone https://github.com/bytedance-seed/BAGEL.git`
* 进入 BAGEL 目录:`cd BAGEL`
* 创建并激活 conda 环境:
* `conda create -n bagel python=3.10 -y`
* `conda activate bagel`
* 安装依赖:`pip install -r requirements.txt`
2. **下载预训练模型:**
* 使用 `huggingface_hub` 库下载预训练模型:

“`python
from huggingface_hub import snapshot_download

save_dir = “/path/to/save/BAGEL-7B-MoT”
repo_id = “ByteDance-Seed/BAGEL-7B-MoT”
cache_dir = save_dir + “/cache”
snapshot_download(cache_dir=cache_dir, local_dir=save_dir, repo_id=repo_id, local_dir_use_symlinks=False, resume_download=True, allow_patterns=[“*.json”, “*.safetensors”, “*.bin”, “*.py”, “*.md”, “*.txt”], )
“`

3. **开始推理:**
* 运行 `inference.ipynb` Jupyter Notebook 开始使用 BAGEL。
4. **使用 Gradio WebUI:**
* 安装 Gradio:`pip install gradio`
* 运行 `app.py` 启动 WebUI:`python app.py`

**训练和评估**

* **训练:** 运行 `scripts/train.sh` 脚本进行训练。可以根据需要修改脚本中的变量。
* **评估:** 提供了 VLM、T2I 和编辑基准测试的评估脚本。

**关键参数**

在推理过程中,以下超参数可以调整以控制模型的行为:

* `cfg_text_scale`: 控制模型遵循文本提示的程度。典型范围:4.0–8.0。
* `cfg_image_scale`: 控制模型保留输入图像细节的程度。典型范围:1.0–2.0。
* `cfg_interval`: 应用 CFG 的去噪步骤的比例。典型值:[0.4, 1.0]。
* `timestep_shift`: 移动去噪步骤的分布。
* `num_timesteps`: 总去噪步骤。典型值:50。
* `cfg_renorm_min`: CFG-Renorm 的最小值。
* `cfg_renorm_type`: CFG-Renorm 方法(global, channel, text_channel)。

**总结**

BAGEL 代表了开源多模态模型领域的一项重大进步。其强大的理解和生成能力、先进的编辑功能以及潜在的“世界建模”能力使其成为研究人员和开发人员的强大工具。 随着模型的不断发展和改进,BAGEL 有望在各种多模态应用中发挥关键作用。

**SEO 关键词:** 多模态模型, 开源 VLM, 图像编辑

**标签:** 人工智能, 深度学习, 自然语言处理

ByteDance-Seed/Bagel
https://github.com/ByteDance-Seed/Bagel

 

© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容