AI开源项目
新StoryWeaver:知识增强型故事角色定制模型
StoryWeaver简介 StoryWeaver是一个知识增强型故事角色定制模型,旨在通过构建角色图谱(Character Graph)和知识增强型空间引导(KE-SG)技术,实现故事中的...
新HuatuoGPT-o1:医疗领域复杂推理的大型语言模型
HuatuoGPT-o1简介 HuatuoGPT-o1是由中国香港中文大学(深圳)与深圳大数据研究院联合开发的一款专门针对医疗领域复杂推理任务的大型语言模型(LLM)。该模型...
新GraphAgent:香港大学联合香港科技大学推出的自动化图语言助手
GraphAgent简介 GraphAgent是由香港大学和香港科技大学(广州)的研究团队共同开发的一款先进的自动化图语言助手。它通过集成语言模型与图语言模型,能够处理...
Aria-UI:能够将自然语言指令定位到GUI中的特定元素
Aria-UI简介 Aria-UI是一个专为图形用户界面(GUI)指令的视觉基础定位而设计的新型大型多模态模型。它采用纯视觉方法,不依赖于HTML或AXTree等辅助输入,通...
ASAL:利用基础模型自动化搜索人工生命模拟的方法
ASAL简介 ASAL(Automated Search for Artificial Life)是一种利用先进视觉语言基础模型来自动化探索人工生命模拟的方法。它通过评估模拟产生的视频,能够发...
OpenEMMA:开源的多模态自动驾驶模型
OpenEMMA简介 OpenEMMA是由德州农工大学、密歇根大学和多伦多大学的研究团队共同开发的开源端到端自动驾驶框架。该框架基于多模态大型语言模型(MLLMs),通...
StereoCrafter:将单一视角的2D视频转换为沉浸式的立体3D视频
StereoCrafter简介 StereoCrafter是由腾讯AI实验室和ARC实验室联合开发的一种创新框架,它能够将单一视角的2D视频转换为沉浸式的立体3D视频,以满足日益增长...
YuLan-Mini:中国人民大学推出的具有2.42亿参数的轻量级语言模型
YuLan-Mini简介 YuLan-Mini是由中国人民大学高瓴人工智能学院开发的一个具有2.42亿参数的轻量级语言模型。该模型以其数据高效和训练稳定性而著称,能够在相对...
VidTok:将视频内容编码成紧凑的潜在标记
VidTok简介 VidTok是由微软研究院、上海交通大学和北京大学联合开发的一个多功能、开源视频分词器,它通过将视频内容编码成紧凑的潜在标记来提高视频生成和理...
DynamicControl:腾讯等推出的多条件自适应文本到图像生成框架
DynamicControl简介 DynamicControl是由腾讯联合南洋理工、浙大等研究机构推出的一种创新框架,旨在提升文本到图像生成任务中的条件控制能力。该框架通过动态...