2.应用工具相关 | 第 20 页

ART：能够直接生成具有多个透明图层的图像

ART简介 Anonymous Region Transformer（ART）是由微软亚洲研究院、清华大学、北京大学和中国科学技术大学的研究团队共同开发的一种创新的多层透明图像生成方...

2-2.应用工具图像

4个月前

ViDoRAG简介 ViDoRAG（Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents）是一种新型的检索增强生成框架，专门用于...

2-5.应用工具其他

4个月前

SpeciesNet 简介 SpeciesNet 是由谷歌团队开发的一款专门用于识别野生动物相机拍摄的图像中的动物物种人工智能模型，它结合了目标检测和图像分类技术，能够从...

2-5.应用工具其他

4个月前

Distill Any Depth简介 “Distill Any Depth”是由浙江工业大学、西湖大学AGI实验室、兰州大学和南洋理工大学联合开发的一种新型单目深度估计方法。该方法通过...

2-5.应用工具其他

4个月前

GaussianCity简介 GaussianCity是由南洋理工大学S-Lab团队开发的一种创新的3D城市生成框架，专门用于高效生成无边界（unbounded）的3D城市场景。该框架基于3D...

2-6.应用工具3D

4个月前

Asyncflow v1.0 简介 Asyncflow v1.0 是由播客平台 Podcastle 开发团队推出的一款 AI 文本转语音模型。该模型支持超过 450 种语音选项，涵盖多种语言、性别和...

2-4.应用工具音频

4个月前

Probly简介 Probly 是一款结合了电子表格功能与 Python 数据分析能力的 AI 驱动工具。它通过交互式电子表格支持公式计算，同时利用 WebAssembly 在浏览器中运...

2-5.应用工具其他

4个月前

Fractal Generative Models 简介 Fractal Generative Models 是由 MIT CSAIL 和 Google DeepMind 联合开发的一种新型图像生成模型，它通过递归调用原子生成模...

2-2.应用工具图像

4个月前

Spark-TTS简介 Spark-TTS 是一款基于大型语言模型（LLM）的高效文本到语音（TTS）系统。它以简洁高效的设计理念为核心，完全依赖于强大的 Qwen2.5 模型，无需...

2-4.应用工具音频

4个月前

WhisperChain简介 WhisperChain 是一款结合了语音识别与人工智能技术的高效语音转文字工具。它利用 Whisper.cpp 实现实时语音转录，并通过 LangChain 对生成...

2-4.应用工具音频

4个月前