Hunyuan-Large:腾讯推出的大型混合专家(MoE)模型
Hunyuan-Large简介 Hunyuan-Large 是由腾讯推出的大型混合专家(MoE)模型,拥有 3890 亿参数和 520 亿激活参数,能够处理高达 256K 个 token。该模型在语言...
π0:Physical Intelligence推出的机器人控制模型
π0简介 π0是由Physical Intelligence团队开发的一种先进的机器人控制模型,它通过预训练视觉-语言模型(VLM)和流匹配架构,能够理解和执行复杂的物理任务。...
INSTANTIR:利用即时生成参考进行盲图像恢复
INSTANTIR简介 INSTANTIR是一种创新的盲图像修复技术,由北京大学和InstantX团队联合开发。这项技术通过动态调整生成条件,利用预训练的扩散概率模型,能够在...
Amphion:一个开源的工具包,专注于音频、音乐和语音生成领域
Amphion简介 Amphion是一个开源的工具包,专注于音频、音乐和语音生成领域,旨在降低初学者和工程师进入这些领域的门槛。它提供了一个统一的框架,支持多种生...
Oasis:Decart和Etched联合推出的AI实时生成游戏系统
Oasis简介 Oasis是由Decart和Etched合作开发的全球首款AI实时生成游戏系统,它能够以每秒20帧的速度实时渲染交互式视频内容,无需游戏引擎,直接通过AI模型生...
HOVER:NVIDIA等推出的人形机器人多模式控制框架
HOVER简介 HOVER(Humanoid Versatile Controller)是由NVIDIA、CMU、UC Berkeley、UT Austin和UC San Diego的联合研究团队开发的一种先进的人形机器人全身控...
DreamVideo-2:通过单张图片和边界框序列精确生成视频
DreamVideo-2简介 DreamVideo-2是由复旦大学、阿里巴巴集团、南洋理工大学和密歇根州立大学的研究团队共同开发的一种先进的零样本视频定制框架。该框架能够通...
MimicTalk:生成个性化和富有表现力的3D说话人脸视频
MimicTalk简介 MimicTalk是由浙江大学与字节跳动的联合研究团队开发的一种创新技术,它能够在短短15分钟内生成个性化和富有表现力的3D说话人脸视频。这项技术...
Runway推出Gen-3 Alpha Turbo模型高级摄像控制功能
Runway为其Gen-3 Alpha Turbo模型推出了精确的相机控制功能,这是继其Act-One动画工具发布后的又一AI视频功能扩展。这项新功能允许用户在AI生成的视频中控制...
PromptFix:能够根据用户的文本指令执行广泛的图像处理任务
PromptFix简介 PromptFix是由罗切斯特大学与微软研究院联合开发的一项创新图像处理框架。该框架通过结合扩散模型和语言模型,能够根据用户的文本指令执行广泛...