AI开源项目

Molmo:艾伦人工智能研究所推出的新型多模态语言模型

Molmo简介 Molmo是由艾伦人工智能研究所开发的一系列新型多模态语言模型(VLMs)。这些模型通过结合独立的预训练视觉编码器和语言模型,并利用全新收集的高质...

MIMO:具有空间分解建模的可控角色视频合成框架

MIMO简介 MIMO 是由阿里巴巴集团智能计算研究所推出的角色可控视频合成框架。它能够根据用户简单的输入,如单一图像、姿势序列或单一视频/图像,合成具有控制...

Llama 3.2:Meta最新发布的多模态语言模型 首次引入图像推理功能

Llama 3.2简介 Llama 3.2是Meta最新发布的多模态语言模型系列,具有强大的文本和图像处理能力。该系列包括多种规模的模型,最小为1亿参数,最大为90亿参数,...

Rope:利用深度学习技术实现高效、自然的人脸替换

Rope简介 Rope是一款AI换脸软件,利用深度学习技术实现高效、自然的人脸替换。它能够快速识别和处理视频中的人脸特征,支持多个人物同时换脸,确保效果逼真且...

StableDelight:通过移除镜面反射来去除图片的光照效果

StableDelight简介 StableDelight 是一种先进的图像处理技术,专注于从有纹理的表面去除镜面反射,从而揭示隐藏的细节和纹理。它基于之前的研究成果StableNor...

PDF2Audio:将 PDF 文件转换成音频播客、讲座、摘要等

PDF2Audio简介 PDF2Audio是一款创新的开源工具,它利用人工智能技术将PDF文档转换成音频格式,如播客、讲座或摘要,让用户能够以听的方式享受阅读。通过OpenA...

LLaMA-Omni:中国科学院推出的低延迟语音交互模型

LLaMA-Omni 简介 LLaMA-Omni是由中国科学院计算技术研究所智能信息处理重点实验室的团队开发的一种新型模型架构,旨在实现与大型语言模型(LLMs)的无缝语音...

QA-MDT:中科大与科大讯飞联合研发的音乐生成模型

QA-MDT简介 QA-MDT(Quality-aware Masked Diffusion Transformer)是由中国科学技术大学与科大讯飞共同开发的一种创新的音乐生成模型。该模型采用掩蔽扩散变...

PortraitGen:使用文本提示来驱动视频内容的编辑

PortraitGen简介 PortraitGen是由中国科学技术大学的开发团队推出的一种先进的肖像视频编辑方法。该技术利用多模态生成先验,能够实现一致且富有表现力的视频...

ColorfulShading:能够准确地分离出物体的颜色和光照效果

ColorfulShading简介 ColorfulShading是一种先进的图像分解技术,由西蒙弗雷泽大学的研究团队开发。这项技术能够将自然光下的摄影作品分解为反照率、漫反射阴...
1 27 28 29 30 31 47