XVERSE-MoE-A36B:元象推出的国内最大的MoE开源模型
XVERSE-MoE-A36B简介
XVERSE-MoE-A36B 是由深圳元象科技自主研发的支持多语言的大语言模型(Large Language Model),使用混合专家模型(MoE,Mixture-of-experts)架构,模型的总参数规模为 2554 亿,实际激活的参数量为 360 亿,这种设计使得它在性能上能够与超过 1000 亿参数的其他大型模型相媲美,同时优化了计算效率。XVERSE-MoE-A36B 支持多种语言的处理,能够进行自然语言理解、生成和翻译等任务,广泛应用于智能客服、内容创作和语言学习等领域。
XVERSE-MoE-A36B主要特点
- 模型结构:XVERSE-MoE-A36B 为 Decoder-only 的 Transformer 架构,将密集模型的 FFN 层扩展为专家层,不同于传统 MoE 中每个专家的大小与标准 FFN 相同(如Mixtral 8x7B ),使用了更细粒度的专家,每个专家是标准 FFN 大小的 1/4,并设置了共享专家(Shared Expert)和非共享专家(Non-shared Expert)两类,共享专家在计算时始终被激活,非共享专家通过 Router 选择性激活。
- 训练数据:构建了海量高质量、多样化的数据对模型进行充分训练,包含中、英、俄、西等 40 多种语言,通过精细化设置不同类型数据的采样比例,使得中英两种语言表现优异,也能兼顾其他语言效果;模型使用 8K 长度的训练样本进行训练;在模型训练过程中进行了若干次数据的切换,来动态的引入持续处理的高质量数据,同时伴随数据采样比的调整。
- 训练策略:在切换数据的同时,为了使模型对新进数据进行快速且充分的学习,对学习率调度器也进行了相应调整。
- 训练框架:针对 MoE 模型中独有的专家路由和权重计算逻辑,进行了深入定制优化,开发出一套高效的融合算子,以提升计算效率。同时,为解决 MoE 模型显存占用和通信量大的挑战,设计了计算、通信和 CPU-Offload 的 Overlap 处理方式,从而提高整体吞吐量。
XVERSE-MoE-A36B技术原理
- 稀疏激活(Sparse Activation): 模型根据输入特性选择性激活部分专家,减少计算资源消耗,提高效率。
- 专家网络(Expert Networks): 由多个专家网络组成,每个专家网络是小型神经网络,专业化训练,增加灵活性和扩展性。
- 门控机制(Gating Mechanism): 包含门控网络,负责决定哪些专家网络应被激活处理特定输入。
- 负载均衡(Load Balancing): 采用策略确保所有专家网络均匀参与模型推理过程。
- 4D拓扑设计: 优化专家间通信效率,平衡通信、显存和计算资源分配,减少通信负担。
XVERSE-MoE-A36B应用场景
- 聊天机器人与客户服务:提供多语言的对话能力,用于在线客服和智能助手,提升用户体验。
- 内容创作与编辑:辅助写作,生成文章、故事或其他文本内容,提高创作效率。
- 语言翻译与转写:实现多语言之间的实时翻译和语音到文本的转写,适用于多语言环境。
- 教育与学习辅助:作为教学工具,提供个性化学习内容和语言学习的辅导。
- 信息检索与推荐系统:增强搜索引擎的语义理解能力,提供更准确的信息检索和个性化推荐。
- 娱乐与游戏开发:用于游戏内的NPC对话生成,提升游戏的互动性和沉浸感。
XVERSE-MoE-A36B项目入口
- 官方网站:https://chat.xverse.cn/
- GitHub代码库:https://github.com/xverse-ai/XVERSE-MoE-A36B
- HuggingFace模型:https://huggingface.co/xverse/XVERSE-MoE-A36B
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...