SpatialLM:群核科技开源的用于空间理解的三维大型语言模型

SpatialLM简介 SpatialLM是由群核科技开源的一个用于空间理解的三维大型语言模型。它能够处理来自单目视频、RGBD图像和激光雷达传感器等多种来源的三维点云数...

Multi-Agent Orchestrator:亚马逊推出的灵活、轻量级的开源框架

Multi-Agent Orchestrator简介 Multi-Agent Orchestrator是由亚马逊开发的一个灵活、轻量级的开源框架,用于协调多个AI代理以处理复杂对话。它能够智能地根据...

StarVector:用于将图像和文本转换为可缩放矢量图形

StarVector简介 StarVector是一种多模态大型语言模型(MLLM),专门用于将图像和文本转换为可缩放矢量图形(SVG)代码。它通过理解图像的语义内容,并利用SVG...

Zero-1-to-A:单图像到可动画化 4D 头像的生成

Zero-1-to-A 简介 Zero-1-to-A 是一种创新的单图像到可动画化 4D 头像的生成方法。它利用预训练的视频扩散模型,通过迭代构建空间和时间一致性的数据集,并采...

FlexWorld:从单张图像生成具有灵活视图的高质量3D场景

FlexWorld简介 FlexWorld是一种能够从单张图像生成具有灵活视图的高质量3D场景的框架,支持360°旋转和缩放。它通过结合强大的视频到视频(V2V)扩散模型和逐...

KDTalker:音频驱动说话肖像生成框架

KDTalker简介 KDTalker是一个创新的音频驱动说话肖像生成框架,它通过结合无监督隐式3D关键点和时空扩散模型,实现了高精度的唇部同步和丰富的头部姿态多样性...

RF-DETR:Roboflow推出的实时目标检测模型

RF-DETR简介 RF-DETR是由Roboflow推出的实时目标检测模型。它在COCO数据集上首次实现了60+的平均精度均值(mAP),在实时目标检测领域取得了突破性进展。该模...

老板电器推出首个烹饪大模型“食神”

老板电器推出的“食神”烹饪大模型是厨电行业首个专注于烹饪领域的垂直大模型,它基于46年积累的烹饪数据和2TB知识库,结合先进的AI技术,能够根据用户食材推荐...

美团自主研发生成式大语言模型LongCat

LongCat 是美团自主研发的生成式大语言模型,旨在通过先进的 AI 技术提升工作效率和用户体验。它基于 Transformer 架构,经过大规模预训练和混合数据训练,具...

Reve 发布专注于美学表现、精确提示遵循的图像生成模型

Reve Image 是一款专注于美学表现、精确提示遵循和优秀排版的图像生成模型。它能够将用户输入的文本描述转化为具有艺术感和视觉吸引力的图像,同时确保内容的...
1 17 18 19 20 21 214