1.大模型相关
Qwen2.5-Omni:阿里开源的端到端全模态大模型
Qwen2.5-Omni简介 Qwen2.5-Omni是由阿里开源的端到端全模态大模型,能够处理文本、图像、音频和视频等多种模态输入,并以流式方式同时生成文本和自然语音响应...
Qwen2.5-VL-32B:阿里开源的最新多模态模型
Qwen2.5-VL-32B简介 Qwen2.5-VL-32B 是由阿里巴巴团队开发的最新多模态模型,参数规模为为32B。该模型在视觉语言理解和生成方面表现出色,能够处理图像描述、...
Stable Virtual Camera:Stability AI推出的单图秒变 3D 视频模型
Stable Virtual Camera简介 Stable Virtual Camera(简称SEVA)是由Stability AI团队开发的一种先进的扩散模型,专门用于生成任意数量输入视图和目标相机下的...
Mistral Small 3.1:Mistral AI 开源的多模态 AI 模型
Mistral Small 3.1简介 Mistral Small 3.1 是由 Mistral AI 开源的多模态 AI 模型。它在 Mistral Small 3 的基础上进行了优化,具备卓越的文本处理能力、多模...
Command A:Cohere 团队开源的语言模型
Command A 简介 Command A 是由 Cohere 团队开源的语言模型,专为企业级应用设计,旨在提供卓越性能与极低硬件成本。它在处理商业、STEM 和编程任务时表现出...
Open-Sora 2.0:潞晨科技推开源的SOTA视频生成模型
Open-Sora 2.0简介 Open-Sora 2.0是由潞晨科技推出的全新开源SOTA(State-of-the-Art)视频生成模型。该模型仅用20万美元的训练成本,便实现了与全球领先视频...
Gemma 3:谷歌最新推出的开源多模态 AI 模型
Gemma 3 简介 Gemma 3 是由谷歌 AI 团队开发的最新开源多模态 AI 模型。它支持文本和图像输入,并能生成文本输出,具备多语言和长上下文处理能力。开发团队通...
Gemini 2.0 Flash:Google推出的多模态AI模型
Gemini 2.0 Flash 简介 Gemini 2.0 Flash 是由Google推出的多模态AI模型。它结合了多模态输入、增强推理和自然语言理解能力,能够根据文本描述生成连贯的图像...
HunyuanVideo-I2V:腾讯推出的可定制化图像到视频生成模型
HunyuanVideo-I2V简介 HunyuanVideo-I2V 是由腾讯开发的一款可定制化图像到视频生成模型,基于强大的 HunyuanVideo 架构。该模型通过图像潜在拼接技术,将静...
QwQ-32B:阿里 Qwen 团队推出的开源中型推理模型
QwQ-32B简介 QwQ-32B 是由阿里 Qwen 团队开发的一款开源中型推理模型。它拥有 320 亿参数,凭借先进的强化学习技术和优化策略,其性能可媲美参数量达 6710 亿...