Pixverse R1 实时视频世界模型发布,藏师傅体验分享

Pixverse最近发布了其实时视频世界模型R1,允许用户通过提示词实时生成和修改视频内容。该模型在极限情况下能够生成1080P的高清视频,未来有望推动AI游戏和互动影视内容的发展。用户目前可以在一个独立的平台上进行测试,需邀请码参与。体验中,用户可以选择三个预设主题——巨龙巢穴、二战主题和海底世界,正式版本预计将扩展至六个主题。此外,用户还可以创建自定义主题,调整画面比例和风格,输入相关提示词以生成视频。在播放过程中,用户可以输入提示词来改变视频的剧情走向,生成的视频还包含音乐、音效和旁白,提升了互动体验。

在算法和架构方面,Pixverse R1采用了原生的多模态模型,支持文本、图像、视频和音频的统一输入。该模型使用非扩散的自回归架构,实现无限连续生成,并通过增强注意力机制确保长时间生成内容的一致性。为适应实时视频生成的需求,Pixverse对迭代降噪逻辑进行了多项优化,称之为瞬时响应引擎(IRE),包括传统模型的步骤压缩、CFG逻辑的蒸馏和自适应稀疏注意力机制,以降低计算负载。

目前,由于成本问题,测试版本的生成分辨率为480P,预计将在几天后提升至720P。

來源:https://x.com/op7418/status/2011334922984964503