Ruyi:图森未来推出的图生视频大模型

Ruyi简介

Ruyi是图森未来推出的图生视频大模型,基于DiT架构,拥有约71亿参数,支持多分辨率、多时长视频生成。它能够根据用户控制的起始帧和结束帧定制视频内容,具备运动幅度和镜头控制功能,特别适合动漫制作。Ruyi在消费级显卡上即可运行,适合动画预制、游戏CG生成等多种应用场景。

Ruyi:图森未来推出的图生视频大模型

Ruyi主要功能

  • 多分辨率和时长生成:支持从384×384到1024×1024的分辨率,最长可生成120帧(5秒)的视频,适应不同需求。
  • 首帧与尾帧控制:用户可以选择最多5个起始帧和5个结束帧,通过循环叠加生成任意长度的视频。
  • 运动幅度控制:提供4档运动幅度设置,便于用户调节画面变化程度。
  • 镜头控制:具备上、下、左、右及静止五种镜头控制选项,增加视频生成的灵活性。

Ruyi技术原理

  • 模型架构:基于DiT(Diffusion Model with Transformers)架构,由Casual VAE模块和Diffusion Transformer组成。
  • Casual VAE模块:负责视频数据的压缩与解压,提升处理效率。
  • Diffusion Transformer:负责生成压缩后的视频内容。
  • 位置编码:使用3D全注意力机制,在空间上应用2D RoPE(Rotary Positional Encoding),时间上使用sin_cos进行位置编码。
  • 训练数据与损失函数:模型总参数约为7.1B,使用约200M视频片段进行训练,采用DDPM(Denoising Diffusion Probabilistic Models)作为损失函数。

Ruyi应用场景

  1. 动漫制作:Ruyi能够快速生成动画场景,降低动漫制作的时间和成本,提高创作效率。
  2. 游戏开发:为游戏开发者提供动态视频素材,帮助快速制作游戏过场动画和宣传片。
  3. 影视特效:在电影和电视剧中,Ruyi可用于生成特效镜头,增强视觉效果。
  4. 广告创意:广告公司可以利用Ruyi生成短视频内容,快速响应市场需求并制作创意广告。
  5. 教育培训:用于制作教育视频和培训材料,通过生动的视觉内容提升学习效果。
  6. 社交媒体内容:个人创作者和品牌可以利用Ruyi生成引人注目的视频内容,增强社交媒体上的互动与吸引力。

Ruyi项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...