6 月 3 日音讯,字节字节跳动 Seed 团队上星期宣告开源一致多模态了解和生成模型
。开源 BAGEL
。统多,模态模型该模型支撑文本、解和图画和视频的生成一致了解和生成
。 
BAGEL 具有 70 亿个激活参数(一共 140 亿个),并在大规模交织多模态数据上进行练习
。开源BAGEL 在规范多模态了解排行榜上逾越了当前尖端的统多开源 VLMs。
,模态模型如 Qwen2.5-VL 和 InternVL-2.5,解和而且供给了与专业生成器如 SD3 竞赛的生成文本到图画质量。 此外,字节BAGEL 在经典的开源图画修改场景中展现了比抢先的开源模型更好的定性成果 。更重要的统多是,它扩展到了自在方式的视觉操作 、多视图组成和国际导航,这些才能构成了超出以往图画修改模型规模的“国际建模”使命。 
详细来看 ,BAGEL 根据大言语模型进行练习,具有根底的推理和对话才能,可以处理图画和文本的混合输入,并以混合格局输出。  ▲ 混合输入-混合输出。BAGEL 可生成较高质量、传神的图画
、视频或图文交织的内容。此外 ,还引入了长思想链 COT(Chain-of-Thought)方式,模型在生成之前可先“考虑”。  ▲ BAGEL 经过“考虑”生成了一个穿戴毛衣的鳄鱼玩偶。根据交织的多模态数据预练习
|