Ruyi：图森未来推出的图生视频大模型

1-2.大模型&国外3个月前更新 AI-77

0 90

Ruyi简介

Ruyi是图森未来推出的图生视频大模型，基于DiT架构，拥有约71亿参数，支持多分辨率、多时长视频生成。它能够根据用户控制的起始帧和结束帧定制视频内容，具备运动幅度和镜头控制功能，特别适合动漫制作。Ruyi在消费级显卡上即可运行，适合动画预制、游戏CG生成等多种应用场景。

Ruyi：图森未来推出的图生视频大模型

Ruyi主要功能

多分辨率和时长生成：支持从384×384到1024×1024的分辨率，最长可生成120帧（5秒）的视频，适应不同需求。
首帧与尾帧控制：用户可以选择最多5个起始帧和5个结束帧，通过循环叠加生成任意长度的视频。
运动幅度控制：提供4档运动幅度设置，便于用户调节画面变化程度。
镜头控制：具备上、下、左、右及静止五种镜头控制选项，增加视频生成的灵活性。

Ruyi技术原理

模型架构：基于DiT（Diffusion Model with Transformers）架构，由Casual VAE模块和Diffusion Transformer组成。
Casual VAE模块：负责视频数据的压缩与解压，提升处理效率。
Diffusion Transformer：负责生成压缩后的视频内容。
位置编码：使用3D全注意力机制，在空间上应用2D RoPE（Rotary Positional Encoding），时间上使用sin_cos进行位置编码。
训练数据与损失函数：模型总参数约为7.1B，使用约200M视频片段进行训练，采用DDPM（Denoising Diffusion Probabilistic Models）作为损失函数。

Ruyi应用场景

动漫制作：Ruyi能够快速生成动画场景，降低动漫制作的时间和成本，提高创作效率。
游戏开发：为游戏开发者提供动态视频素材，帮助快速制作游戏过场动画和宣传片。
影视特效：在电影和电视剧中，Ruyi可用于生成特效镜头，增强视觉效果。
广告创意：广告公司可以利用Ruyi生成短视频内容，快速响应市场需求并制作创意广告。
教育培训：用于制作教育视频和培训材料，通过生动的视觉内容提升学习效果。
社交媒体内容：个人创作者和品牌可以利用Ruyi生成引人注目的视频内容，增强社交媒体上的互动与吸引力。

Ruyi项目入口

GitHub代码库：https://github.com/IamCreateAI/Ruyi-Models
HuggingFace：https://huggingface.co/IamCreateAI/Ruyi-Mini-7B

# 1-2.大模型&国外 # 1.大模型相关 # 3-3.视频生成模型 # 3.AI大模型数据库 # AI开源项目 # AI项目库

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Dimba：昆仑推出的高效文本到图像生成的混合架构模型

AI-77cn

100

MM-StoryAgent：融合多种模态生成沉浸式的有声故事书视频

AI-77cn

70

MoMask：新型的文本驱动3D人类动作生成框架

AI-77cn

90

RB-Modulation：根据参考风格图像和文本提示，生成具有特定艺术风格的图像

AI-77cn

20

HOMIE：上海人工智能实验室等推出的人形机器人遥操作系统

AI-77cn

20

LBM：在单步推理中完成从源图像到目标图像的翻译任务

AI-77cn

40

暂无评论

暂无评论...

一站式AI信息服务平台：AI工具大全、AI每日快讯、AI项目库、AI融资快报、AI研究报告、AI教程、AI副业、AI考证等。助您全面系统了解AI、使用AI

关于我们广告合作免责声明柒柒快讯

Copyright © 2025 柒柒AI导航粤ICP备2023146609号-1

粤公网安备44011102483711号