博客 | 第 22 页 | 柒柒AI导航

LVAS-Agent：能够为长视频生成高质量的同步音频

LVAS-Agent 简介 LVAS-Agent 是由香港科技大学（广州）和香港科技大学的研究团队开发的一种多智能体协作框架，专门用于长视频音频合成。该框架通过模拟专业配...

2-5.应用工具其他

1个月前

UniFluid简介 UniFluid 是由 Google DeepMind 和 MIT 的联合开发团队提出的一种创新的统一自回归框架，旨在结合视觉生成和理解任务。该模型通过处理多模态图...

2-5.应用工具其他

1个月前

Multi-Speaker简介 Multi-Speaker 是由 AudioShake 团队开发的全球首个高分辨率多说话人声分离模型。该模型能够将音频中的多个说话人精准分离到不同轨道，支...

2-4.应用工具音频

1个月前

Cube 3D简介 Cube 3D 是由 Roblox 开发团队推出的一款 AI 3D 生成模型，旨在通过生成式 AI 技术简化 3D 内容创作。它能够根据文本描述快速生成 3D 模型和环境...

2-6.应用工具3D

1个月前

ReasonGraph简介 ReasonGraph是由剑桥大学和莫纳什大学的研究团队共同开发的一个基于网络的平台，旨在可视化和分析大型语言模型（LLMs）的推理过程。该平台支...

2-5.应用工具其他

1个月前

GR00T N1简介 GR00T N1 是由 NVIDIA 开发团队推出的一款面向人形机器人的开源基础模型。该团队致力于开发能够理解人类世界、遵循语言指令并执行多样化任务的...

2-5.应用工具其他

1个月前

2025年3月19日消息，Google Gemini 最新推出了 Canvas 和 Audio Overview 两项实用功能。Canvas 是一个互动空间，能够帮助用户快速生成高质量的文档初稿，支...

AI新发布/功能更新

1个月前

腾讯混元3D模型于2025年3月18日宣布升级，推出了Hunyuan3D-2.0 MV和Hunyuan3D-2.0 Mini两款新模型。其中，Hunyuan3D-2.0 MV支持多视图输入，用户仅需上传2-4...

AI新发布/功能更新

1个月前

Skywork R1V简介 Skywork R1V是由昆仑万维开源的多模态推理模型，它通过高效的多模态转移技术，将R1系列大型语言模型的推理能力扩展到视觉模态。该模型利用轻...

2-5.应用工具其他

1个月前

SmolDocling简介 SmolDocling是由IBM Research和HuggingFace联合开发的超紧凑型视觉-语言模型，专为端到端多模态文档转换而设计。该模型通过生成DocTags标记...

2-5.应用工具其他

1个月前