2.应用工具相关 | 第 23 页

Baichuan-Audio：Baichuan推出的端到端音频大语言模型

Baichuan-Audio简介 Baichuan-Audio是由Baichuan公司开发的端到端音频大语言模型，专为实时语音交互设计。它通过预训练的ASR模型和多码本离散化技术，将语音...

2-4.应用工具音频

4个月前

video-subtitle-master简介 video-subtitle-master 是一款跨平台的客户端工具，能够批量为视频或音频生成字幕，并支持将字幕翻译成其他语言。它基于开源项目 ...

2-3.应用工具视频

4个月前

Smallpond简介 Smallpond 是由 Deepseek 团队开发的轻量级数据处理框架，基于高性能的 DuckDB 和分布式存储系统 3FS 构建。它专为大规模数据处理而设计，能够...

2-5.应用工具其他

4个月前

DualPipe 简介 DualPipe 是由 DeepSeek 开发的一种创新双向流水线并行算法，旨在优化大规模深度学习训练中的计算与通信重叠。它通过巧妙设计，实现了前向和反...

2-5.应用工具其他

4个月前

EPLB简介 Expert Parallelism Load Balancer (EPLB) 是由 DeepSeek 推出的一种用于专家并行（Expert Parallelism, EP）场景的负载均衡工具。在大规模分布式训...

2-5.应用工具其他

4个月前

DeepGEMM简介 DeepGEMM 是由 DeepSeek 推出的一个高效 FP8 矩阵乘法（GEMM）库，专为 NVIDIA Hopper 架构 GPU 设计。它以简洁高效为理念，支持普通和混合专家...

2-5.应用工具其他

4个月前

3FS简介 Fire-Flyer File System（3FS）是由 DeepSeek 推出的高性能分布式文件系统，专为应对人工智能训练和推理工作负载的挑战而设计。它利用现代 SSD 和 RD...

2-5.应用工具其他

4个月前

LDGen简介 LDGen是由理想汽车推出的一种文本到图像合成技术，旨在通过将大型语言模型（LLMs）与现有的文本到图像扩散模型相结合，提升多语言图像生成能力，同...

2-2.应用工具图像

4个月前

PixArt-Σ简介 PixArt-Σ 是一种先进的扩散变换器模型（Diffusion Transformer），能够在 4K 分辨率下直接生成高质量图像。它基于 PixArt-α 的预训练基础，通过...

2-2.应用工具图像

4个月前

FantasyID简介 FantasyID是由阿里巴巴集团AMAP团队和北京邮电大学联合开发的一种创新的身份保持型文本到视频生成框架。该技术通过融合3D面部几何先验、多视角...

2-2.应用工具图像

4个月前