AI项目合集

Qwen2-VL:阿里巴巴达摩院最新推出的视觉语言模型

Qwen2-VL简介 Qwen2-VL是阿里巴巴达摩院最新推出的视觉语言模型,具备卓越的图像和视频理解能力。它能够处理不同分辨率和长宽比的图片,理解长达20分钟的视频...

GameNGen:首个由神经模型驱动的实时游戏引擎

GameNGen简介 GameNGen是由谷歌推出的创新游戏引擎,它完全基于神经模型,能够实现实时与复杂环境的交互。这个引擎能够以高帧率和高质量模拟经典游戏,如DOOM...

LitServe:一款易于使用且灵活的服务引擎,适用于基于 FastAPI 构建的 AI 模型

LitServe 简介 LitServe是由Lightning AI团队开发的一个高性能人工智能模型服务引擎。它旨在为企业提供快速、灵活且易于扩展的AI模型部署解决方案。LitServe...

DiPIR:在真实世界场景图像中逼真地插入虚拟对象

DiPIR简介 DiPIR是由NVIDIA的研究团队开发的先进技术,利用扩散模型作为指导,结合基于物理的逆渲染过程,实现在真实世界场景图像中逼真地插入虚拟对象。这种...

DreamCinema:轻松将自己的故事和想法转换为电影

DreamCinema简介 DreamCinema是由清华大学推出的一种创新的电影转换框架,它融合了先进的人工智能技术,允许用户以一种用户友好的方式进行电影创作。该框架能...

EasyOCR:一个开源的OCR(光学字符识别)项目

EasyOCR 简介 EasyOCR 是一个功能强大的开源OCR(光学字符识别)项目,,它支持超过80种语言的文字识别,包括中文、阿拉伯文和西里尔文。基于深度学习技术,E...

CogVideoX:智谱AI开源的视频生成模型(新增CogVideoX-5B模型)

CogVideo简介 CogVideoX是由智谱AI推出的一款先进的文本到视频扩散模型。是 清影 同源的开源版本视频生成模型。它通过结合3D变分自编码器和专家变换器架构,...

Omages:将复杂的3D格式转换为更易于管理的2D格式

Omages 简介 Omages是一种创新的3D模型生成技术,由西蒙弗雷泽大学和香港城市大学的研究团队开发。该技术通过将3D形状的几何、外观和结构封装在64x64像素的图...

GLM-4-Flash:智谱AI首个免费API,零成本使用大模型

GLM-4-Flash简介 GLM-4-Flash是由智谱AI开发的一款高性能大语言模型,以其快速的生成速度和支持多语言的能力而闻名。这款模型专为简单、低成本且需要快速响应...

山海大模型:云知声正式推出的多模态大模型

山海大模型简介 山海大模型是云知声推出的多模态人工智能大模型,这是一款集语音交互、情感感知、音色切换和视觉场景理解于一体的先进人工智能系统。能够实时...
1 8 9 10 11 12 39