Ruyi:图森未来推出的图生视频大模型
Ruyi简介
Ruyi是图森未来推出的图生视频大模型,基于DiT架构,拥有约71亿参数,支持多分辨率、多时长视频生成。它能够根据用户控制的起始帧和结束帧定制视频内容,具备运动幅度和镜头控制功能,特别适合动漫制作。Ruyi在消费级显卡上即可运行,适合动画预制、游戏CG生成等多种应用场景。
Ruyi主要功能
- 多分辨率和时长生成:支持从384×384到1024×1024的分辨率,最长可生成120帧(5秒)的视频,适应不同需求。
- 首帧与尾帧控制:用户可以选择最多5个起始帧和5个结束帧,通过循环叠加生成任意长度的视频。
- 运动幅度控制:提供4档运动幅度设置,便于用户调节画面变化程度。
- 镜头控制:具备上、下、左、右及静止五种镜头控制选项,增加视频生成的灵活性。
Ruyi技术原理
- 模型架构:基于DiT(Diffusion Model with Transformers)架构,由Casual VAE模块和Diffusion Transformer组成。
- Casual VAE模块:负责视频数据的压缩与解压,提升处理效率。
- Diffusion Transformer:负责生成压缩后的视频内容。
- 位置编码:使用3D全注意力机制,在空间上应用2D RoPE(Rotary Positional Encoding),时间上使用sin_cos进行位置编码。
- 训练数据与损失函数:模型总参数约为7.1B,使用约200M视频片段进行训练,采用DDPM(Denoising Diffusion Probabilistic Models)作为损失函数。
Ruyi应用场景
- 动漫制作:Ruyi能够快速生成动画场景,降低动漫制作的时间和成本,提高创作效率。
- 游戏开发:为游戏开发者提供动态视频素材,帮助快速制作游戏过场动画和宣传片。
- 影视特效:在电影和电视剧中,Ruyi可用于生成特效镜头,增强视觉效果。
- 广告创意:广告公司可以利用Ruyi生成短视频内容,快速响应市场需求并制作创意广告。
- 教育培训:用于制作教育视频和培训材料,通过生动的视觉内容提升学习效果。
- 社交媒体内容:个人创作者和品牌可以利用Ruyi生成引人注目的视频内容,增强社交媒体上的互动与吸引力。
Ruyi项目入口
- GitHub代码库:https://github.com/IamCreateAI/Ruyi-Models
- HuggingFace:https://huggingface.co/IamCreateAI/Ruyi-Mini-7B
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...