智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统

卓新软件园 10-25 阅读 100评论

感谢本站网友 HH_KK 的线索投递！

本站 10 月 21 日消息，智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。

在图像生成任务中，基于人类偏好评测，Emu3 优于 SD-1.5 与 SDXL 模型。在视觉语言理解任务中，对于 12 项基准测试的平均得分，Emu3 优于 LlaVA-1.6。在视频生成任务中，对于 VBench 基准测试得分，Emu3 优于 OpenSora 1.2。

据介绍，Emu3 提供了一个强大的视觉 tokenizer，能够将视频和图像转换为离散 token。这些视觉离散 token 可以与文本 tokenizer 输出的离散 token 一起送入模型中。与此同时，该模型输出的离散 token 可以被转换为文本、图像和视频，为 Any-to-Any 的任务提供了更加统一的研究范式。

▲Emu3 生成的图像

Emu3 研究结果证明，下一个 token 预测可以作为多模态模型的一个强大范式，实现超越语言本身的大规模多模态学习，并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到 token 本身，能在大规模训练和推理中释放巨大的潜力。

目前 Emu3 已开源了关键技术和模型，本站附链接如下：

代码：https://github.com/baaivision/Emu3

项目页面：https://emu.baai.ac.cn/

模型：https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f

文章版权声明：除非注明，否则均为卓新软件园原创文章，转载或复制请以超链接形式并注明出处。

美国一面亲上边一面膜评价如何？消费者使用后的真实体验揭秘！

精品人和普通人有什么不同？揭秘精品人背后的秘密

相关阅读

阶跃星辰发布 Step-1X-Medium 模型：AI 图片生成提速 30%、支持图生图垫图玩法、升级中国风创作

《苏软软汆肉的日常系统》：游戏中的汆肉任务系统是如何推动剧情发展的？

未满十八岁玩《刺激战场》会有哪些影响？如何合理管理？:青少年玩家的游戏健康指南

女性坐着扦插BB的好处：如何通过坐姿改善盆底肌肉和身心健康？

东北48岁老阿姨叫的没谁了吗？背后隐藏的社会压力与情感需求解读

三年片中国在线观看免费大全：有哪些平台提供三年片免费在线播放？如何选择最适合的观影方式？

如何免费观看高清韩剧电视剧《狂飙》？少女观众最爱的悬疑剧，免费观看渠道有哪些？

成色好的Y31S是国产：为何越来越多消费者选择国产手机？

发表评论取消回复

快捷回复：表情：

Addoil

Applause

Badlaugh

Bomb

Coffee

Fabulous

Facepalm

Feces

Frown

Heyha

Insidious

KeepFighting

NoProb

PigHead

Shocked

Sinistersmile

Slap

Sweat

Tolaugh

Watermelon

Witty

Wow

Yeah

Yellowdog

评论列表（暂无评论，2603人围观）

还没有评论，来说两句吧...

目录[+]