2.应用工具相关
LLaMA-Omni:中国科学院推出的低延迟语音交互模型
LLaMA-Omni 简介 LLaMA-Omni是由中国科学院计算技术研究所智能信息处理重点实验室的团队开发的一种新型模型架构,旨在实现与大型语言模型(LLMs)的无缝语音...
DualGS:打造沉浸式以人为中心的立体视频
DualGS简介 DualGS是由上海科技大学与NeuDim数字技术(上海)有限公司联合研发的一种体积视频技术。该技术通过创新的双高斯表示法,分别捕捉人体的运动和外观...
PortraitGen:使用文本提示来驱动视频内容的编辑
PortraitGen简介 PortraitGen是由中国科学技术大学的开发团队推出的一种先进的肖像视频编辑方法。该技术利用多模态生成先验,能够实现一致且富有表现力的视频...
ColorfulShading:能够准确地分离出物体的颜色和光照效果
ColorfulShading简介 ColorfulShading是一种先进的图像分解技术,由西蒙弗雷泽大学的研究团队开发。这项技术能够将自然光下的摄影作品分解为反照率、漫反射阴...
3DTopia-XL:高效生成高质量3D资产的新框架
3DTopia-XL简介 3DTopia-XL是由南洋理工大学、北京大学、上海人工智能实验室以及香港中文大学的研究团队共同开发的一种高质量3D资产生成框架。它采用了创新的...
LVCD:将线条艺术作品(如动画草图)转换成彩色视频
LVCD简介 LVCD是由香港城市大学和腾讯公司微信团队共同开发的一种创新视频着色技术。这项技术基于扩散模型,能够将线条图视频与参考图像相结合,生成具有长时...
WonderWorld :交互式地生成连贯且多样化的3D虚拟环境
WonderWorld 简介 WonderWorld是由斯坦福大学和麻省理工学院的联合推出的一款创新性3D场景生成框架。该框架允许用户通过单张图片和文本提示,交互式地生成并...
StoryMaker:小红书开源的文生图一致性解决方案
StoryMaker简介 StoryMaker 是由小红书推出的一款开源的文生图保持一致性解决方案。这个工具能够确保在生成图像时,角色的面部特征、服装、发型和身体特征保...
Phidias:能够根据文本描述或单张图像生成相应的3D模型
Phidias简介 Phidias是由香港城市大学、上海人工智能实验室和南洋理工大学的研究人员共同开发的创新生成模型。该模型采用参考增强扩散技术,能够根据文本、图...
OmniGen:可处理包括文本到图像生成、图像编辑等多种任务
OmniGen简介 OmniGen是由北京智源人工智能研究院(BAAI)开发的新一代统一图像生成模型。该模型通过简化的架构设计,无需额外模块即可处理包括文本到图像生成...