AI开源项目 | 第 29 页

Molmo：艾伦人工智能研究所推出的新型多模态语言模型

Molmo简介 Molmo是由艾伦人工智能研究所开发的一系列新型多模态语言模型（VLMs）。这些模型通过结合独立的预训练视觉编码器和语言模型，并利用全新收集的高质...

1-2.大模型&国外

4个月前

MIMO简介 MIMO 是由阿里巴巴集团智能计算研究所推出的角色可控视频合成框架。它能够根据用户简单的输入，如单一图像、姿势序列或单一视频/图像，合成具有控制...

2-3.应用工具视频

4个月前

Llama 3.2简介 Llama 3.2是Meta最新发布的多模态语言模型系列，具有强大的文本和图像处理能力。该系列包括多种规模的模型，最小为1亿参数，最大为90亿参数，...

1-2.大模型&国外

4个月前

Rope简介 Rope是一款AI换脸软件，利用深度学习技术实现高效、自然的人脸替换。它能够快速识别和处理视频中的人脸特征，支持多个人物同时换脸，确保效果逼真且...

2-5.应用工具其他

4个月前

StableDelight简介 StableDelight 是一种先进的图像处理技术，专注于从有纹理的表面去除镜面反射，从而揭示隐藏的细节和纹理。它基于之前的研究成果StableNor...

2-2.应用工具图像

4个月前

PDF2Audio简介 PDF2Audio是一款创新的开源工具，它利用人工智能技术将PDF文档转换成音频格式，如播客、讲座或摘要，让用户能够以听的方式享受阅读。通过OpenA...

2-4.应用工具音频

4个月前

LLaMA-Omni 简介 LLaMA-Omni是由中国科学院计算技术研究所智能信息处理重点实验室的团队开发的一种新型模型架构，旨在实现与大型语言模型（LLMs）的无缝语音...

2-4.应用工具音频

4个月前

QA-MDT简介 QA-MDT（Quality-aware Masked Diffusion Transformer）是由中国科学技术大学与科大讯飞共同开发的一种创新的音乐生成模型。该模型采用掩蔽扩散变...

3-4.音乐生成模型

4个月前

PortraitGen简介 PortraitGen是由中国科学技术大学的开发团队推出的一种先进的肖像视频编辑方法。该技术利用多模态生成先验，能够实现一致且富有表现力的视频...

2-2.应用工具图像

4个月前

ColorfulShading简介 ColorfulShading是一种先进的图像分解技术，由西蒙弗雷泽大学的研究团队开发。这项技术能够将自然光下的摄影作品分解为反照率、漫反射阴...

2-2.应用工具图像

4个月前