3.AI大模型数据库 | 第 5 页

VILA-U：能够理解和处理涉及图像和语言的任务

VILA-U简介 VILA-U是一个创新的统一视觉语言模型，它整合了视频、图像和语言的理解和生成能力。与传统视觉语言模型不同，VILA-U采用单一的自回归下一个token...

3-5.多模态模型

2个月前

Embed3简介 Embed3是由Cohere推出的一款多模态AI搜索模型，旨在提升图像和文本的检索能力。它通过跨模态对齐技术，实现了更高效的图像与文本匹配，使用户能够...

3-5.多模态模型

2个月前

Video-XL简介 Video-XL是智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校联合推出的超长视觉语言模型，专为小时级视频理解而设...

3-3.视频生成模型

2个月前

TextHarmony简介 TextHarmony是由华东师范大学和字节跳动的联合研究团队开发的一款创新的多模态生成模型，它在视觉文本理解和生成领域展现了卓越的能力。该模...

3-5.多模态模型

2个月前

MaskGCT简介 MaskGCT是由香港中文大学（深圳）和广州趣丸网络科技有限公司联合推出的一种零样本文本到语音合成模型。该系统采用了一种创新的非自回归方法，通...

3-7.语音模型

2个月前

GLM-4-Voice简介 GLM-4-Voice是智谱AI于推出的端到端情感语音模型，旨在提升人机交互的自然性和灵活性。该模型具备情感理解与表达能力，能够模拟多种情绪并实...

3-7.语音模型

2个月前

FlexGen简介 FlexGen是由香港科技大学（HKUST）的研究团队开发的一种创新的多视图图像生成框架，它能够根据单一视图图像或文本提示生成可控和一致的多视图图...

3-2.图片生成模型

2个月前

TIME-MOE简介 TIME-MOE是一种创新的大规模时间序列预测模型，采用混合专家(MoE)架构，通过激活模型中只有一部分网络来提高计算效率，同时保持模型的高容量。...

3-9.其他模型

2个月前

Mochi 1简介 Mochi 1是由Genmo推出的开源视频生成模型，基于非对称扩散变换器（AsymmDiT）架构，拥有10亿个参数，是当前最大的公开视频生成模型。它能够生成...

3-3.视频生成模型

3个月前

Janus简介 Janus是由DeepSeek-AI推出的一款多模态理解和生成框架。该框架通过创新性地将视觉编码分离成独立的路径，有效地解决了多模态理解和视觉生成任务之...

3-5.多模态模型

3个月前