DistriFusion:显著减少使用扩散模型生成高分辨率图像所需的时间
DistriFusion简介 DistriFusion是由MIT、普林斯顿大学、Lepton AI和NVIDIA的联合研究团队开发的一种创新算法,旨在通过在多个GPU上实现分布式并行推理,显著...
Nvidia 推出 StormCast 生成式 AI 模型,用于预测中尺度天气事件
Nvidia公司推出了一款名为StormCast的生成式人工智能模型,旨在提高天气预报的准确性。StormCast是基于早期的CorrDiff模型升级而来,CorrDiff是Nvidia提供给...
ElevenLabs 的文本转语音应用 Reader 现已在全球推出
ElevenLabs,一家专注于开发AI合成声音工具的初创公司,将其文本到语音应用Reader推广至全球,支持32种语言。这款应用最初于6月在美国、英国和加拿大发布,允...
Seed-ASR:可识别不同语言、方言、口音的AI语音识别模型
Seed-ASR简介 Seed-ASR是由字节跳动的Seed团队开发的一款基于大型语言模型(LLM)的语音识别模型。它通过结合超过2亿参数的音频编码器和具有数十亿参数的专家...
TurboEdit:可通过文本提示来实时指导图像的编辑
TurboEdit简介 TurboEdit是由Adobe Research开发的一项创新技术,它通过引入基于编码器的迭代反演技术和条件化处理,实现了对图像的精确反演和解耦图像编辑。...
FancyVideo:跨帧文本引导的动态一致视频生成模型
FancyVideo简介 FancyVideo 是由360和中山大学共同开发的一款创新视频生成模型。它通过引入跨帧文本引导模块(Cross-frame Textual Guidance Module, CTGM)...
AMD 以 49 亿美元收购基础设施公司 ZT Systems,以增强其 AI 生态系统
AMD计划以49亿美元收购ZT Systems,这是一家为人工智能、云服务和通用计算提供计算设计和基础设施的公司。这次收购将加强AMD作为构建大型AI业务的“生态系统”...
Llama-3.1-Minitron:英伟达推出的仅4B参数的小型语言模型
Llama-3.1-Minitron简介 Llama-3.1-Minitron是由英伟达公司利用先进的剪枝和知识蒸馏技术,从Llama 3.1 8B模型中提炼而成的4B参数小型语言模型。它在保持与更...
LongWriter:将现有模型的文本生成能力扩展到超过10,000字
LongWriter项目简介 LongWriter是由清华大学与智谱AI联合开发的一项创新技术,旨在突破当前大型语言模型(LLMs)在生成长文本方面的限制。通过引入AgentWrite...
Tavus:支持数字人克隆和实时对话的AI视频生成平台
Tavus简介 Tavus 是一个先进的AI视频生成平台,它支持数字人克隆和实时对话功能。这个平台基于Phoenix-2模型和对话式视频接口(CVI),能够实现接近人类的自...