博客 | 第 116 页 | 柒柒AI导航

StoryMaker：小红书开源的文生图一致性解决方案

StoryMaker简介 StoryMaker 是由小红书推出的一款开源的文生图保持一致性解决方案。这个工具能够确保在生成图像时，角色的面部特征、服装、发型和身体特征保...

2-2.应用工具图像

7个月前

Phidias简介 Phidias是由香港城市大学、上海人工智能实验室和南洋理工大学的研究人员共同开发的创新生成模型。该模型采用参考增强扩散技术，能够根据文本、图...

2-6.应用工具3D

7个月前

极峰科技，一家专注于工业AI大模型开发的企业，近日完成了首轮千万级天使轮融资，由清新资本独家战略投资。该公司利用AI技术为工业能源管理、设备控制和质量...

AI公司融资快报

7个月前

OmniGen简介 OmniGen是由北京智源人工智能研究院（BAAI）开发的新一代统一图像生成模型。该模型通过简化的架构设计，无需额外模块即可处理包括文本到图像生成...

2-2.应用工具图像

7个月前

Moshi简介 Moshi是由法国人工智能研究实验室Kyutai开发的一款先进的语音-文本基础模型，现已开源。它是一个用于实时对话的全双工语音对话框架。该模型通过将...

3-7.语音模型

7个月前

GVHMR简介 GVHMR是一种创新的人体运动恢复方法，由浙江大学CAD&CG国家重点实验室与香港大学的研究团队共同开发。该技术能够从单目视频中准确估计出基于重...

2-3.应用工具视频

7个月前

GOT-OCR2.0简介 GOT-OCR2.0是由来自阶跃星辰、Megvii Technology、中国科学院大学和清华大学的研究人员共同开发的一款先进的光学字符识别（OCR）模型。作为OC...

AI开源项目

7个月前

EzAudio简介 EzAudio 是由腾讯联合约翰霍普金斯大学开发的一种创新的文本到音频生成框架。该框架通过采用高效的扩散变压器架构和优化的训练策略，在保持模型...

2-4.应用工具音频

7个月前

Uniphore公司推出了名为X-Stream的新产品，这是一个统一的知识服务平台，旨在帮助企业更高效地构建检索增强生成（RAG）应用程序。X-Stream通过提供一个统一和...

柒柒快讯

7个月前

Deepgram 推出了一项新的语音代理API，这项技术能够实现大规模的实时人机自然对话。通过集成语音识别和语音合成的AI模型，Deepgram的系统能够提供类似人类的...

柒柒快讯

7个月前