2.应用工具相关
Baichuan-Audio:Baichuan推出的端到端音频大语言模型
Baichuan-Audio简介 Baichuan-Audio是由Baichuan公司开发的端到端音频大语言模型,专为实时语音交互设计。它通过预训练的ASR模型和多码本离散化技术,将语音...
video-subtitle-master:能够批量为视频或音频生成字幕
video-subtitle-master简介 video-subtitle-master 是一款跨平台的客户端工具,能够批量为视频或音频生成字幕,并支持将字幕翻译成其他语言。它基于开源项目 ...
Smallpond:Deepseek 团队推出的轻量级数据处理框架
Smallpond简介 Smallpond 是由 Deepseek 团队开发的轻量级数据处理框架,基于高性能的 DuckDB 和分布式存储系统 3FS 构建。它专为大规模数据处理而设计,能够...
DualPipe:DeepSeek 推出的双向流水线并行算法
DualPipe 简介 DualPipe 是由 DeepSeek 开发的一种创新双向流水线并行算法,旨在优化大规模深度学习训练中的计算与通信重叠。它通过巧妙设计,实现了前向和反...
EPLB:DeepSeek 推出的专家并行负载均衡工具
EPLB简介 Expert Parallelism Load Balancer (EPLB) 是由 DeepSeek 推出的一种用于专家并行(Expert Parallelism, EP)场景的负载均衡工具。在大规模分布式训...
DeepGEMM:DeepSeek 推出的 FP8 矩阵乘法库
DeepGEMM简介 DeepGEMM 是由 DeepSeek 推出的一个高效 FP8 矩阵乘法(GEMM)库,专为 NVIDIA Hopper 架构 GPU 设计。它以简洁高效为理念,支持普通和混合专家...
3FS:DeepSeek 推出的高性能分布式文件系统
3FS简介 Fire-Flyer File System(3FS)是由 DeepSeek 推出的高性能分布式文件系统,专为应对人工智能训练和推理工作负载的挑战而设计。它利用现代 SSD 和 RD...
LDGen:理想汽车推出多语言文本到图像合成技术
LDGen简介 LDGen是由理想汽车推出的一种文本到图像合成技术,旨在通过将大型语言模型(LLMs)与现有的文本到图像扩散模型相结合,提升多语言图像生成能力,同...
PixArt-Σ:能够在 4K 分辨率下直接生成高质量图像
PixArt-Σ简介 PixArt-Σ 是一种先进的扩散变换器模型(Diffusion Transformer),能够在 4K 分辨率下直接生成高质量图像。它基于 PixArt-α 的预训练基础,通过...
FantasyID:阿里等推出的身份保持型文本到视频生成框架
FantasyID简介 FantasyID是由阿里巴巴集团AMAP团队和北京邮电大学联合开发的一种创新的身份保持型文本到视频生成框架。该技术通过融合3D面部几何先验、多视角...