LLaDA：中国人民大学联合蚂蚁集团推出的大语言模型

0 70

LLaDA简介

LLaDA（Large Language Diffusion with mAsking）是由中国人民大学高瓴人工智能学院和蚂蚁集团联合开发的一种新型大语言模型。该模型采用扩散模型架构，突破了传统自回归模型（ARM）的限制，通过正向掩蔽和反向恢复过程进行训练，利用Transformer作为掩蔽预测器，展现出强大的生成能力和可扩展性。LLaDA在多项基准测试中表现优异，尤其在数学、中文任务和反转推理能力上超越了现有的一些大型语言模型，如LLaMA3和GPT-4o。其开发团队通过创新的模型设计和训练方法，证明了扩散模型在语言生成领域的巨大潜力，为未来大型语言模型的发展提供了新的方向。

LLaDA主要功能

生成文本：LLaDA能够生成高质量的文本，适用于各种语言任务，如文章写作、对话生成等。
上下文学习：LLaDA在零样本和少样本学习任务中表现出色，能够根据提供的上下文生成相关内容。
指令遵循：经过监督微调（SFT）后，LLaDA在遵循指令和多轮对话等任务中表现出色。
反转推理：LLaDA有效解决了“反转诅咒”问题，在反转任务中表现优异，如反转诗歌补全。
多语言支持：LLaDA在多种语言任务中表现出色，特别是在中文任务上具有优势。

LLaDA技术原理

扩散模型：LLaDA基于扩散模型，通过正向数据掩蔽过程和反向恢复过程来建模数据分布。正向过程逐步掩蔽数据，反向过程则逐步恢复数据。
掩蔽预测器：LLaDA使用Transformer作为掩蔽预测器，预测被掩蔽的标记。通过优化似然下界，提供了一种原则性的生成方法。
预训练和监督微调：LLaDA采用标准的数据准备、预训练和监督微调（SFT）流程。预训练阶段在大规模数据集上进行，微调阶段在配对数据上进行，以增强模型的指令遵循能力。
随机掩蔽策略：LLaDA在训练过程中使用随机掩蔽策略，掩蔽比例在0到1之间随机变化，这使得模型在大规模数据和模型上具有强大的可扩展性。
反向过程采样：在推理过程中，LLaDA通过从完全掩蔽的状态开始，逐步恢复标记来生成文本。采用低置信度掩蔽和半自回归掩蔽等策略，提高生成质量和效率。