Pixverse R1 实时视频世界模型发布，藏师傅体验分享

Pixverse最近发布了其实时视频世界模型R1，允许用户通过提示词实时生成和修改视频内容。该模型在极限情况下能够生成1080P的高清视频，未来有望推动AI游戏和互动影视内容的发展。用户目前可以在一个独立的平台上进行测试，需邀请码参与。体验中，用户可以选择三个预设主题——巨龙巢穴、二战主题和海底世界，正式版本预计将扩展至六个主题。此外，用户还可以创建自定义主题，调整画面比例和风格，输入相关提示词以生成视频。在播放过程中，用户可以输入提示词来改变视频的剧情走向，生成的视频还包含音乐、音效和旁白，提升了互动体验。

在算法和架构方面，Pixverse R1采用了原生的多模态模型，支持文本、图像、视频和音频的统一输入。该模型使用非扩散的自回归架构，实现无限连续生成，并通过增强注意力机制确保长时间生成内容的一致性。为适应实时视频生成的需求，Pixverse对迭代降噪逻辑进行了多项优化，称之为瞬时响应引擎（IRE），包括传统模型的步骤压缩、CFG逻辑的蒸馏和自适应稀疏注意力机制，以降低计算负载。

目前，由于成本问题，测试版本的生成分辨率为480P，预计将在几天后提升至720P。

來源：https://x.com/op7418/status/2011334922984964503