WarriorCoder：华南理工大学联合微软推出的代码生成语言模型

0 40

WarriorCoder简介

WarriorCoder是由华南理工大学计算机科学与工程学院和微软团队共同开发的代码生成语言模型。该方法通过构建一个“专家之战”的竞技场，让多个领先的代码生成大语言模型（LLMs）相互挑战，由公正的裁判模型评估结果。WarriorCoder不依赖于现有的数据集或专有的LLMs，而是从头开始生成高质量的训练数据，整合了所有参赛专家模型的优势。实验表明，WarriorCoder在多个代码生成基准测试中达到了新的最高水平，显著优于其他开源模型，并且无需依赖专有LLMs的数据。这一成果为代码生成领域的模型训练提供了一种低成本、高效率的新思路。

WarriorCoder主要功能

生成高质量代码生成训练数据：WarriorCoder通过专家模型之间的竞争和评估，从头开始生成高质量的代码指令和响应数据，无需依赖现有的数据集或专有模型的标注。
提升代码生成模型的性能：通过整合多个专家模型的优势，WarriorCoder能够显著提升目标模型在代码生成、代码推理和库使用等任务上的性能，达到新的最高水平。
降低数据收集成本：该方法无需人工标注或专有模型生成的指令，能够以低成本生成多样化的训练数据，提高数据的独立性和泛化能力。
增强模型的泛化能力：通过竞争生成的训练数据覆盖多种任务类型，使目标模型在不同代码生成场景中表现出色，具备更好的泛化能力。

WarriorCoder技术原理

专家模型竞争框架：构建一个竞技场，让多个专家代码生成模型（LLMs）相互挑战。每轮比赛中，一对模型作为攻击者和防守者，其余模型作为裁判，评估双方的表现。
指令挖掘与筛选：使用基于补全的方法挖掘攻击者模型已掌握的指令，通过去重和难度筛选保留高质量指令，避免数据的重复性和模糊性。
胜负决策与评分：结合裁判模型的投票结果和Elo评分系统，综合评估模型在每轮比赛中的表现，平衡局部表现和全局一致性，选择最佳响应作为训练数据。
目标模型训练：使用从竞争中生成的高质量指令和响应对目标模型进行微调，使其吸收所有专家模型的优势，提升整体性能。
多样化数据生成：通过专家模型之间的竞争，生成覆盖多种任务类型的训练数据，确保目标模型在不同代码生成任务中表现出色。