2.应用工具相关

ART:能够直接生成具有多个透明图层的图像

ART简介 Anonymous Region Transformer(ART)是由微软亚洲研究院、清华大学、北京大学和中国科学技术大学的研究团队共同开发的一种创新的多层透明图像生成方...

ViDoRAG:专门用于处理视觉丰富文档中的复杂推理任务

ViDoRAG简介 ViDoRAG(Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents)是一种新型的检索增强生成框架,专门用于...

SpeciesNet:识别相机拍摄的图像中的动物物种

SpeciesNet 简介 SpeciesNet 是由谷歌团队开发的一款专门用于识别野生动物相机拍摄的图像中的动物物种人工智能模型,它结合了目标检测和图像分类技术,能够从...

Distill Any Depth:知识蒸馏框架的单目深度估计方法

Distill Any Depth简介 “Distill Any Depth”是由浙江工业大学、西湖大学AGI实验室、兰州大学和南洋理工大学联合开发的一种新型单目深度估计方法。该方法通过...

GaussianCity:南洋理工大学推出的3D城市生成框架

GaussianCity简介 GaussianCity是由南洋理工大学S-Lab团队开发的一种创新的3D城市生成框架,专门用于高效生成无边界(unbounded)的3D城市场景。该框架基于3D...

Asyncflow v1.0:Podcastle 推出的AI 文本转语音模型

Asyncflow v1.0 简介 Asyncflow v1.0 是由播客平台 Podcastle 开发团队推出的一款 AI 文本转语音模型。该模型支持超过 450 种语音选项,涵盖多种语言、性别和...

Probly:结合了电子表格功能与 Python 数据分析能力

Probly简介 Probly 是一款结合了电子表格功能与 Python 数据分析能力的 AI 驱动工具。它通过交互式电子表格支持公式计算,同时利用 WebAssembly 在浏览器中运...

Fractal Generative Models:谷歌等推出的分形图像生成模型

Fractal Generative Models 简介 Fractal Generative Models 是由 MIT CSAIL 和 Google DeepMind 联合开发的一种新型图像生成模型,它通过递归调用原子生成模...

Spark-TTS:支持中文和英文的高质量语音合成

Spark-TTS简介 Spark-TTS 是一款基于大型语言模型(LLM)的高效文本到语音(TTS)系统。它以简洁高效的设计理念为核心,完全依赖于强大的 Qwen2.5 模型,无需...

WhisperChain:能够将用户说话的内容即时转换为文字

WhisperChain简介 WhisperChain 是一款结合了语音识别与人工智能技术的高效语音转文字工具。它利用 Whisper.cpp 实现实时语音转录,并通过 LangChain 对生成...
1 18 19 20 21 22 85