StoryMaker:小红书开源的文生图一致性解决方案
StoryMaker简介 StoryMaker 是由小红书推出的一款开源的文生图保持一致性解决方案。这个工具能够确保在生成图像时,角色的面部特征、服装、发型和身体特征保...
Phidias:能够根据文本描述或单张图像生成相应的3D模型
Phidias简介 Phidias是由香港城市大学、上海人工智能实验室和南洋理工大学的研究人员共同开发的创新生成模型。该模型采用参考增强扩散技术,能够根据文本、图...
【极峰科技】获千万级天使轮融资 用AI大模型助力工业低碳转型
极峰科技,一家专注于工业AI大模型开发的企业,近日完成了首轮千万级天使轮融资,由清新资本独家战略投资。该公司利用AI技术为工业能源管理、设备控制和质量...
OmniGen:可处理包括文本到图像生成、图像编辑等多种任务
OmniGen简介 OmniGen是由北京智源人工智能研究院(BAAI)开发的新一代统一图像生成模型。该模型通过简化的架构设计,无需额外模块即可处理包括文本到图像生成...
Moshi:实时对话的语音-文本端对端模型
Moshi简介 Moshi是由法国人工智能研究实验室Kyutai开发的一款先进的语音-文本基础模型,现已开源。它是一个用于实时对话的全双工语音对话框架。该模型通过将...
GVHMR:能够从单一视角的视频资料中恢复出人体运动
GVHMR简介 GVHMR是一种创新的人体运动恢复方法,由浙江大学CAD&CG国家重点实验室与香港大学的研究团队共同开发。该技术能够从单目视频中准确估计出基于重...
GOT-OCR2.0:阶跃星辰等推出的端到端的OCR模型
GOT-OCR2.0简介 GOT-OCR2.0是由来自阶跃星辰、Megvii Technology、中国科学院大学和清华大学的研究人员共同开发的一款先进的光学字符识别(OCR)模型。作为OC...
EzAudio:将文本描述转换为相应逼真的音频内容
EzAudio简介 EzAudio 是由腾讯联合约翰霍普金斯大学开发的一种创新的文本到音频生成框架。该框架通过采用高效的扩散变压器架构和优化的训练策略,在保持模型...
Uniphore 推出 X-Stream,可将 RAG 应用的构建速度提高 8 倍
Uniphore公司推出了名为X-Stream的新产品,这是一个统一的知识服务平台,旨在帮助企业更高效地构建检索增强生成(RAG)应用程序。X-Stream通过提供一个统一和...
Deepgram 推出语音代理 API,让 AI 对话变得生动有趣
Deepgram 推出了一项新的语音代理API,这项技术能够实现大规模的实时人机自然对话。通过集成语音识别和语音合成的AI模型,Deepgram的系统能够提供类似人类的...