AI开源项目 | 第 36 页

Qwen2-VL：阿里巴巴达摩院最新推出的视觉语言模型

Qwen2-VL简介 Qwen2-VL是阿里巴巴达摩院最新推出的视觉语言模型，具备卓越的图像和视频理解能力。它能够处理不同分辨率和长宽比的图片，理解长达20分钟的视频...

1-1.大模型&国内

4个月前

LitServe 简介 LitServe是由Lightning AI团队开发的一个高性能人工智能模型服务引擎。它旨在为企业提供快速、灵活且易于扩展的AI模型部署解决方案。LitServe...

2-5.应用工具其他

4个月前

DreamCinema简介 DreamCinema是由清华大学推出的一种创新的电影转换框架，它融合了先进的人工智能技术，允许用户以一种用户友好的方式进行电影创作。该框架能...

2-3.应用工具视频

4个月前

EasyOCR 简介 EasyOCR 是一个功能强大的开源OCR（光学字符识别）项目，，它支持超过80种语言的文字识别，包括中文、阿拉伯文和西里尔文。基于深度学习技术，E...

2-1.应用工具文本

4个月前

CogVideo简介 CogVideoX是由智谱AI推出的一款先进的文本到视频扩散模型。是清影同源的开源版本视频生成模型。它通过结合3D变分自编码器和专家变换器架构，...

2-3.应用工具视频

4个月前

Omages 简介 Omages是一种创新的3D模型生成技术，由西蒙弗雷泽大学和香港城市大学的研究团队开发。该技术通过将3D形状的几何、外观和结构封装在64x64像素的图...

2-6.应用工具3D

4个月前

Sapiens简介 Sapiens是由Meta公司的Reality Labs团队开发的一款先进的人工智能视觉模型。它专为理解人体而设计，能够处理包括2D姿态估计、身体部位分割、深度...

2-2.应用工具图像

5个月前

mPLUG-Owl3简介 mPLUG-Owl3是由阿里开发的一款先进的多模态大型语言模型，它在处理长图像序列理解方面取得了突破性进展。该模型通过创新的超注意力机制，有效...

2-1.应用工具文本

5个月前

RAGFlow简介 RAGFlow是一个开源的RAG（Retrieval-Augmented Generation）引擎，专注于深度文档理解，旨在通过先进的检索增强技术，自动化工作流程和提升开发...

2-1.应用工具文本

5个月前

Show-o简介 Show-o是由新加坡国立大学的Show Lab和字节跳动公司联合开发的一个创新的统一变换器模型。它通过结合自回归和离散扩散建模，有效地整合了多模态理...

3-5.多模态模型

5个月前