AI项目合集 | 第 10 页

Qwen2-VL：阿里巴巴达摩院最新推出的视觉语言模型

Qwen2-VL简介 Qwen2-VL是阿里巴巴达摩院最新推出的视觉语言模型，具备卓越的图像和视频理解能力。它能够处理不同分辨率和长宽比的图片，理解长达20分钟的视频...

1-1.大模型&国内

3周前

GameNGen简介 GameNGen是由谷歌推出的创新游戏引擎，它完全基于神经模型，能够实现实时与复杂环境的交互。这个引擎能够以高帧率和高质量模拟经典游戏，如DOOM...

2-5.应用工具其他

3周前

LitServe 简介 LitServe是由Lightning AI团队开发的一个高性能人工智能模型服务引擎。它旨在为企业提供快速、灵活且易于扩展的AI模型部署解决方案。LitServe...

2-5.应用工具其他

3周前

DiPIR简介 DiPIR是由NVIDIA的研究团队开发的先进技术，利用扩散模型作为指导，结合基于物理的逆渲染过程，实现在真实世界场景图像中逼真地插入虚拟对象。这种...

2-3.应用工具视频

3周前

DreamCinema简介 DreamCinema是由清华大学推出的一种创新的电影转换框架，它融合了先进的人工智能技术，允许用户以一种用户友好的方式进行电影创作。该框架能...

2-3.应用工具视频

3周前

EasyOCR 简介 EasyOCR 是一个功能强大的开源OCR（光学字符识别）项目，，它支持超过80种语言的文字识别，包括中文、阿拉伯文和西里尔文。基于深度学习技术，E...

2-1.应用工具文本

3周前

CogVideo简介 CogVideoX是由智谱AI推出的一款先进的文本到视频扩散模型。是清影同源的开源版本视频生成模型。它通过结合3D变分自编码器和专家变换器架构，...

2-3.应用工具视频

3周前

Omages 简介 Omages是一种创新的3D模型生成技术，由西蒙弗雷泽大学和香港城市大学的研究团队开发。该技术通过将3D形状的几何、外观和结构封装在64x64像素的图...

2-6.应用工具3D

4周前

GLM-4-Flash简介 GLM-4-Flash是由智谱AI开发的一款高性能大语言模型，以其快速的生成速度和支持多语言的能力而闻名。这款模型专为简单、低成本且需要快速响应...

1-1.大模型&国内

4周前

山海大模型简介山海大模型是云知声推出的多模态人工智能大模型，这是一款集语音交互、情感感知、音色切换和视觉场景理解于一体的先进人工智能系统。能够实时...

1-1.大模型&国内

4周前