艾伦人工智能研究所(AI2)推出了一款名为OLMoE的新型开源大型语言模型(LLM),旨在提供既强大又具有成本效益的解决方案。OLMoE采用稀疏混合专家(MoE)架构,拥有7亿参数,但每个输入令牌仅激活10亿参数。它有两个版本:通用版OLMoE-1B-7B和针对指令调整的OLMoE-1B-7B-Instruct。
与其他混合专家模型不同,OLMoE完全开源,包括训练数据、代码和训练方法。AI2的目标是推动开源模型的发展,使其性能与闭源模型相媲美。OLMoE在设计上采用了64个小专家的细粒度路由,每次仅激活8个,实验表明,这种设计在保持性能的同时显著降低了推理成本和内存存储需求。
OLMoE在基准测试中表现出色,超越了具有相似活跃参数的所有现有模型,甚至在某些情况下超过了更大的模型。它在训练时使用了来自DCLM和Dolma的数据混合,包括Common Crawl、Dolma CC、Refined Web、StarCoder、C4、Stack Exchange、OpenWebMath、Project Gutenberg、Wikipedia等多种数据源。
AI2致力于提供更多完全开源的AI模型,以促进研究和开发,特别是在MoE架构日益流行的背景下。与其他一些使用MoE架构但不完全开放的AI模型不同,OLMoE提供了透明度和可访问性,有助于推动整个领域的进步。
来源:venturebeat
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...