Apollo:Meta和斯坦福大学联合推出的大型多模态模型
Apollo简介 Apollo是Meta GenAI与斯坦福大学合作开发的一系列先进的大型多模态模型(LMMs),旨在深入探索和提升视频理解能力。该模型家族通过系统性研究,优...
BrushEdit:腾讯联合清华等高校推出的图像编辑框架
BrushEdit简介 BrushEdit是由北京大学、腾讯ARC实验室、香港中文大学和清华大学的联合研究团队开发的一款先进的交互式图像编辑框架。该框架结合了多模态大型...
字节跳动发布豆包大模型的多项重要更新
字节跳动在2024年12月18日的火山引擎FORCE大会上发布了豆包大模型的多项重要更新,包括增强的视觉理解能力、全新的3D生成模型以及通用模型Pro的性能提升。新...
Ruyi:图森未来推出的图生视频大模型
Ruyi简介 Ruyi是图森未来推出的图生视频大模型,基于DiT架构,拥有约71亿参数,支持多分辨率、多时长视频生成。它能够根据用户控制的起始帧和结束帧定制视频...
Megrez-3B-Omni:无问芯穹开源的全球首个端侧全模态理解模型
Megrez-3B-Omni 简介 Megrez-3B-Omni 是无问芯穹开源的全球首个端侧全模态理解模型,它能够处理图像、音频和文本等多种数据类型,具有30亿参数,推理速度快,...
Veo 2:谷歌 DeepMind 推出的最新版 AI 视频生成模型
Veo 2 简介 Veo 2 是谷歌 DeepMind 推出的最新版 AI 视频生成模型,它能够生成高达 4K 分辨率的视频,支持长达 2 分钟的视频片段。Veo 2 通过深度学习技术,...
Midjourney推出新功能Moodboards
Midjourney推出了一个名为MoodBoards的新功能,这个功能允许用户上传图片集,为AI模型提供图片生成的灵感。MoodBoards能够适应上传图片的多样性和复杂性,创...
TGH:从多视角视频中重建长时间的动态体积视频
TGH简介 Temporal Gaussian Hierarchy(TGH)是由浙江大学CAD&CG国家重点实验室、斯坦福大学和香港科技大学的研究人员联合开发的一种先进的4D场景表示技...
CosyVoice 2:阿里推出的先进流式语音合成模型
CosyVoice 2简介 CosyVoice 2是由阿里巴巴集团开发的先进流式语音合成模型,它通过整合大型语言模型,实现了在流式模式下人类水平的自然度和几乎无损的合成质...
Freestyler:能够直接从歌词和伴奏输入生成说唱声乐
Freestyler简介 Freestyler是由中国西北工业大学音频、语音与语言处理小组(ASLP@NPU)与微软中国合作开发的一款创新系统,它能够直接从歌词和伴奏输入生成说...