LVAS-Agent:能够为长视频生成高质量的同步音频
LVAS-Agent 简介 LVAS-Agent 是由香港科技大学(广州)和香港科技大学的研究团队开发的一种多智能体协作框架,专门用于长视频音频合成。该框架通过模拟专业配...
UniFluid:实现高质量的图像生成和强大的视觉理解能力
UniFluid简介 UniFluid 是由 Google DeepMind 和 MIT 的联合开发团队提出的一种创新的统一自回归框架,旨在结合视觉生成和理解任务。该模型通过处理多模态图...
Multi-Speaker:全球首个高分辨率多说话人声分离模型
Multi-Speaker简介 Multi-Speaker 是由 AudioShake 团队开发的全球首个高分辨率多说话人声分离模型。该模型能够将音频中的多个说话人精准分离到不同轨道,支...
Cube 3D:Roblox推出的AI 3D 生成模型
Cube 3D简介 Cube 3D 是由 Roblox 开发团队推出的一款 AI 3D 生成模型,旨在通过生成式 AI 技术简化 3D 内容创作。它能够根据文本描述快速生成 3D 模型和环境...
ReasonGraph:可视化和分析大型语言模型的推理过程
ReasonGraph简介 ReasonGraph是由剑桥大学和莫纳什大学的研究团队共同开发的一个基于网络的平台,旨在可视化和分析大型语言模型(LLMs)的推理过程。该平台支...
GR00T N1:英伟达开源的人形机器人基础模型
GR00T N1简介 GR00T N1 是由 NVIDIA 开发团队推出的一款面向人形机器人的开源基础模型。该团队致力于开发能够理解人类世界、遵循语言指令并执行多样化任务的...
Google Gemini 推出 Canvas 和 Audio Overview 两项功能
2025年3月19日消息,Google Gemini 最新推出了 Canvas 和 Audio Overview 两项实用功能。Canvas 是一个互动空间,能够帮助用户快速生成高质量的文档初稿,支...
腾讯混元3D模型升级 推出3D 2.0 MV 和 3D 2.0 Mini
腾讯混元3D模型于2025年3月18日宣布升级,推出了Hunyuan3D-2.0 MV和Hunyuan3D-2.0 Mini两款新模型。其中,Hunyuan3D-2.0 MV支持多视图输入,用户仅需上传2-4...
Skywork R1V:昆仑万维开源的多模态推理模型
Skywork R1V简介 Skywork R1V是由昆仑万维开源的多模态推理模型,它通过高效的多模态转移技术,将R1系列大型语言模型的推理能力扩展到视觉模态。该模型利用轻...
SmolDocling:专为端到端多模态文档转换而设计
SmolDocling简介 SmolDocling是由IBM Research和HuggingFace联合开发的超紧凑型视觉-语言模型,专为端到端多模态文档转换而设计。该模型通过生成DocTags标记...