2.应用工具相关

Motia:专为软件工程师设计的AI代理框架

Motia简介 Motia是一个专为软件工程师设计的AI代理框架,旨在帮助开发者快速创建、测试和部署生产级AI代理。它支持多种编程语言,如Python、TypeScript和Ruby...

SWD:显著降低生成高分辨率图像的计算成本

SWD简介 SWD(Scale-wise Distillation of Diffusion Models)是由 Yandex Research 团队开发的一种新型扩散模型蒸馏框架。该框架通过在扩散过程中逐步提升图...

SpatialLM:群核科技开源的用于空间理解的三维大型语言模型

SpatialLM简介 SpatialLM是由群核科技开源的一个用于空间理解的三维大型语言模型。它能够处理来自单目视频、RGBD图像和激光雷达传感器等多种来源的三维点云数...

Multi-Agent Orchestrator:亚马逊推出的灵活、轻量级的开源框架

Multi-Agent Orchestrator简介 Multi-Agent Orchestrator是由亚马逊开发的一个灵活、轻量级的开源框架,用于协调多个AI代理以处理复杂对话。它能够智能地根据...

StarVector:用于将图像和文本转换为可缩放矢量图形

StarVector简介 StarVector是一种多模态大型语言模型(MLLM),专门用于将图像和文本转换为可缩放矢量图形(SVG)代码。它通过理解图像的语义内容,并利用SVG...

Zero-1-to-A:单图像到可动画化 4D 头像的生成

Zero-1-to-A 简介 Zero-1-to-A 是一种创新的单图像到可动画化 4D 头像的生成方法。它利用预训练的视频扩散模型,通过迭代构建空间和时间一致性的数据集,并采...

FlexWorld:从单张图像生成具有灵活视图的高质量3D场景

FlexWorld简介 FlexWorld是一种能够从单张图像生成具有灵活视图的高质量3D场景的框架,支持360°旋转和缩放。它通过结合强大的视频到视频(V2V)扩散模型和逐...

KDTalker:音频驱动说话肖像生成框架

KDTalker简介 KDTalker是一个创新的音频驱动说话肖像生成框架,它通过结合无监督隐式3D关键点和时空扩散模型,实现了高精度的唇部同步和丰富的头部姿态多样性...

RF-DETR:Roboflow推出的实时目标检测模型

RF-DETR简介 RF-DETR是由Roboflow推出的实时目标检测模型。它在COCO数据集上首次实现了60+的平均精度均值(mAP),在实时目标检测领域取得了突破性进展。该模...

InfiniteYou:通过文本描述生成保持身份特征的高质量图像

InfiniteYou简介 InfiniteYou(InfU)是由字节跳推出的图像生成框架,旨在通过自由文本描述生成保持身份特征的高质量图像。InfU利用了最新的扩散变换器(DiTs...
1 11 12 13 14 15 85