AI2 的新模型旨在实现开放、强大且具有成本效益

0 90

艾伦人工智能研究所（AI2）推出了一款名为OLMoE的新型开源大型语言模型（LLM），旨在提供既强大又具有成本效益的解决方案。OLMoE采用稀疏混合专家（MoE）架构，拥有7亿参数，但每个输入令牌仅激活10亿参数。它有两个版本：通用版OLMoE-1B-7B和针对指令调整的OLMoE-1B-7B-Instruct。

与其他混合专家模型不同，OLMoE完全开源，包括训练数据、代码和训练方法。AI2的目标是推动开源模型的发展，使其性能与闭源模型相媲美。OLMoE在设计上采用了64个小专家的细粒度路由，每次仅激活8个，实验表明，这种设计在保持性能的同时显著降低了推理成本和内存存储需求。

OLMoE在基准测试中表现出色，超越了具有相似活跃参数的所有现有模型，甚至在某些情况下超过了更大的模型。它在训练时使用了来自DCLM和Dolma的数据混合，包括Common Crawl、Dolma CC、Refined Web、StarCoder、C4、Stack Exchange、OpenWebMath、Project Gutenberg、Wikipedia等多种数据源。

AI2致力于提供更多完全开源的AI模型，以促进研究和开发，特别是在MoE架构日益流行的背景下。与其他一些使用MoE架构但不完全开放的AI模型不同，OLMoE提供了透明度和可访问性，有助于推动整个领域的进步。

来源：venturebeat

# 柒柒快讯