AI开源项目

TextHarmony:华东师范大学和字节联合推出的多模态生成模型

TextHarmony简介 TextHarmony是由华东师范大学和字节跳动的联合研究团队开发的一款创新的多模态生成模型,它在视觉文本理解和生成领域展现了卓越的能力。该模...

NotebookLlama:Meta推出的将 PDF 文档转换成播客内容的开源项目

NotebookLlama简介 NotebookLlama 是 Meta 推出的开源项目,利用 LLaMa 模型将 PDF 文档转换成播客内容。它通过自动化流程进行 PDF 预处理、生成播客脚本、增...

OmniParser:能描述出页面中的元素 并识别出可操作区域

OmniParser简介 OmniParser是由微软研究院开发的一种创新的视觉语言模型,旨在提升基于用户界面的代理系统在不同操作系统和应用程序中的操作能力。该工具通过...

LongVU:用于长视频语言理解的时空自适应压缩

LongVU简介 LongVU是由Meta AI、沙特国王科技大学(KAUST)和韩国大学的研究团队共同开发的一种创新的长视频语言理解模型。该模型通过时空自适应压缩机制,能...

MaskGCT:香港中文大学&趣丸网络科技联合推出的语音合成模型

MaskGCT简介 MaskGCT是由香港中文大学(深圳)和广州趣丸网络科技有限公司联合推出的一种零样本文本到语音合成模型。该系统采用了一种创新的非自回归方法,通...

GLM-4-Voice:智谱AI于推出的端到端情感语音模型

GLM-4-Voice简介 GLM-4-Voice是智谱AI于推出的端到端情感语音模型,旨在提升人机交互的自然性和灵活性。该模型具备情感理解与表达能力,能够模拟多种情绪并实...

DuoAttention:提高LLMs在处理长文本上下文时的推理效率

DuoAttention简介 DuoAttention是由麻省理工学院(MIT)的研究团队开发的一种新型框架,旨在提高大型语言模型在处理长文本上下文时的推理效率。该框架通过区...

DIAMOND:能够在视觉细节丰富的环境中实现高效的样本学习

DIAMOND简介 DIAMOND是由瑞士日内瓦大学和爱丁堡大学的研究团队共同开发的一种新型强化学习代理,它通过在扩散世界模型中进行训练,能够在视觉细节丰富的环境...

Whispo:通过简单的按键操作 快速将语音内容转化为文本

Whispo简介 Whispo是一款基于人工智能的语音转录工具,利用先进的Whisper技术将语音实时转换为文本。它支持多种平台,用户只需按住Ctrl键开始录音,释放后即...

GS3:旨在实现实时、高质量的新光照和视角合成

GS3简介 GS3(Efficient Relighting with Triple Gaussian Splatting)是一项由浙江大学CAD&CG国家重点实验室开发的创新技术,旨在实现实时、高质量的新...
1 19 20 21 22 23 47