1-2.大模型&国外

Stable Virtual Camera:Stability AI推出的单图秒变 3D 视频模型

Stable Virtual Camera简介 Stable Virtual Camera(简称SEVA)是由Stability AI团队开发的一种先进的扩散模型,专门用于生成任意数量输入视图和目标相机下的...

Mistral Small 3.1:Mistral AI 开源的多模态 AI 模型

Mistral Small 3.1简介 Mistral Small 3.1 是由 Mistral AI 开源的多模态 AI 模型。它在 Mistral Small 3 的基础上进行了优化,具备卓越的文本处理能力、多模...

Command A:Cohere 团队开源的语言模型

Command A 简介 Command A 是由 Cohere 团队开源的语言模型,专为企业级应用设计,旨在提供卓越性能与极低硬件成本。它在处理商业、STEM 和编程任务时表现出...

Gemma 3:谷歌最新推出的开源多模态 AI 模型

Gemma 3 简介 Gemma 3 是由谷歌 AI 团队开发的最新开源多模态 AI 模型。它支持文本和图像输入,并能生成文本输出,具备多语言和长上下文处理能力。开发团队通...

Gemini 2.0 Flash:Google推出的多模态AI模型

Gemini 2.0 Flash 简介 Gemini 2.0 Flash 是由Google推出的多模态AI模型。它结合了多模态输入、增强推理和自然语言理解能力,能够根据文本描述生成连贯的图像...

CSM:Sesame发布的超真实AI语音模型

CSM简介 CSM(Conversational Speech Model)是由Sesame团队开发的一款先进对话语音模型,旨在让AI语音交互更加自然和富有情感。它采用多模态Transformer架构...

Scribe:ElevenLabs推出的高精度语音转文本模型

Scribe简介 Scribe 是由 ElevenLabs 团队开发的高精度语音转文本模型。它专为复杂音频环境和多语言转录设计,支持超过 99 种语言,其中 25 种语言的词错率低...

Phi-4-multimodal:微软推出的首个多模态语言模型

Phi-4-multimodal简介 Phi-4-multimodal是由微软推出的首个多模态语言模型,由微软的GenAI团队负责开发。该模型拥有56亿参数,能够同时处理语音、图像和文本...

Phi-4-mini:微软推出的38 亿参数的小型语言模型

Phi-4-mini 简介 Phi-4-mini 是由微软开发团队推出的一款 38 亿参数的小型语言模型。它采用密集型解码器架构,具备分组查询注意力、20 万词汇量和共享输入输...

GPT-4.5:OpenAI推出的最新语言模型

GPT-4.5简介 GPT-4.5是由OpenAI开发的最新语言模型,代表了其在无监督学习领域的重大进步。该模型通过大规模计算和数据训练,以及架构和优化创新,展现出更广...
1 2 3 4