博客 | 第 19 页 | 柒柒AI导航

SpatialLM：群核科技开源的用于空间理解的三维大型语言模型

SpatialLM简介 SpatialLM是由群核科技开源的一个用于空间理解的三维大型语言模型。它能够处理来自单目视频、RGBD图像和激光雷达传感器等多种来源的三维点云数...

2-5.应用工具其他

1个月前

Multi-Agent Orchestrator简介 Multi-Agent Orchestrator是由亚马逊开发的一个灵活、轻量级的开源框架，用于协调多个AI代理以处理复杂对话。它能够智能地根据...

2-5.应用工具其他

1个月前

StarVector简介 StarVector是一种多模态大型语言模型（MLLM），专门用于将图像和文本转换为可缩放矢量图形（SVG）代码。它通过理解图像的语义内容，并利用SVG...

2-2.应用工具图像

1个月前

Zero-1-to-A 简介 Zero-1-to-A 是一种创新的单图像到可动画化 4D 头像的生成方法。它利用预训练的视频扩散模型，通过迭代构建空间和时间一致性的数据集，并采...

2-2.应用工具图像

1个月前

FlexWorld简介 FlexWorld是一种能够从单张图像生成具有灵活视图的高质量3D场景的框架，支持360°旋转和缩放。它通过结合强大的视频到视频（V2V）扩散模型和逐...

2-6.应用工具3D

1个月前

KDTalker简介 KDTalker是一个创新的音频驱动说话肖像生成框架，它通过结合无监督隐式3D关键点和时空扩散模型，实现了高精度的唇部同步和丰富的头部姿态多样性...

2-3.应用工具视频

1个月前

RF-DETR简介 RF-DETR是由Roboflow推出的实时目标检测模型。它在COCO数据集上首次实现了60+的平均精度均值（mAP），在实时目标检测领域取得了突破性进展。该模...

2-5.应用工具其他

1个月前

老板电器推出的“食神”烹饪大模型是厨电行业首个专注于烹饪领域的垂直大模型，它基于46年积累的烹饪数据和2TB知识库，结合先进的AI技术，能够根据用户食材推荐...

AI新发布/功能更新

1个月前

LongCat 是美团自主研发的生成式大语言模型，旨在通过先进的 AI 技术提升工作效率和用户体验。它基于 Transformer 架构，经过大规模预训练和混合数据训练，具...

AI新发布/功能更新

1个月前

Reve Image 是一款专注于美学表现、精确提示遵循和优秀排版的图像生成模型。它能够将用户输入的文本描述转化为具有艺术感和视觉吸引力的图像，同时确保内容的...

AI新发布/功能更新

1个月前