AI开源项目 | 第 21 页

TextHarmony：华东师范大学和字节联合推出的多模态生成模型

TextHarmony简介 TextHarmony是由华东师范大学和字节跳动的联合研究团队开发的一款创新的多模态生成模型，它在视觉文本理解和生成领域展现了卓越的能力。该模...

3-5.多模态模型

2个月前

NotebookLlama简介 NotebookLlama 是 Meta 推出的开源项目，利用 LLaMa 模型将 PDF 文档转换成播客内容。它通过自动化流程进行 PDF 预处理、生成播客脚本、增...

2-4.应用工具音频

2个月前

OmniParser简介 OmniParser是由微软研究院开发的一种创新的视觉语言模型，旨在提升基于用户界面的代理系统在不同操作系统和应用程序中的操作能力。该工具通过...

AI开源项目

3个月前

LongVU简介 LongVU是由Meta AI、沙特国王科技大学（KAUST）和韩国大学的研究团队共同开发的一种创新的长视频语言理解模型。该模型通过时空自适应压缩机制，能...

2-3.应用工具视频

3个月前

MaskGCT简介 MaskGCT是由香港中文大学（深圳）和广州趣丸网络科技有限公司联合推出的一种零样本文本到语音合成模型。该系统采用了一种创新的非自回归方法，通...

3-7.语音模型

3个月前

GLM-4-Voice简介 GLM-4-Voice是智谱AI于推出的端到端情感语音模型，旨在提升人机交互的自然性和灵活性。该模型具备情感理解与表达能力，能够模拟多种情绪并实...

3-7.语音模型

3个月前

DuoAttention简介 DuoAttention是由麻省理工学院（MIT）的研究团队开发的一种新型框架，旨在提高大型语言模型在处理长文本上下文时的推理效率。该框架通过区...

2-5.应用工具其他

3个月前

DIAMOND简介 DIAMOND是由瑞士日内瓦大学和爱丁堡大学的研究团队共同开发的一种新型强化学习代理，它通过在扩散世界模型中进行训练，能够在视觉细节丰富的环境...

2-5.应用工具其他

3个月前

Whispo简介 Whispo是一款基于人工智能的语音转录工具，利用先进的Whisper技术将语音实时转换为文本。它支持多种平台，用户只需按住Ctrl键开始录音，释放后即...

2-4.应用工具音频

3个月前

GS3简介 GS3（Efficient Relighting with Triple Gaussian Splatting）是一项由浙江大学CAD&CG国家重点实验室开发的创新技术，旨在实现实时、高质量的新...

2-5.应用工具其他

3个月前