LongWriter：将现有模型的文本生成能力扩展到超过10,000字

3-1.大语言模型8个月前发布 AI-77

0 20

LongWriter项目简介

LongWriter是由清华大学与智谱AI联合开发的一项创新技术，旨在突破当前大型语言模型（LLMs）在生成长文本方面的限制。通过引入AgentWrite代理框架和构建LongWriter-6k数据集，该技术成功地将现有模型的文本生成能力扩展到超过10,000字，同时保持了输出质量。这一成果不仅展示了LLMs在长文本生成上的潜力，也为未来在更复杂写作任务中的应用奠定了基础。

LongWriter：将现有模型的文本生成能力扩展到超过10,000字

LongWriter主要功能

超长文本生成：LongWriter能够生成超过10,000字的连贯文本，远超现有语言模型的输出限制。
数据集构建：通过AgentWrite代理框架，LongWriter创建了LongWriter-6k数据集，包含长达32,000字的输出样本。
模型训练优化：LongWriter将LongWriter-6k数据集整合到模型训练中，有效提升了模型的长文本生成能力。
质量保持：即使在扩展输出长度的同时，LongWriter也保持了文本的质量和连贯性。
性能提升：通过直接偏好优化（DPO），LongWriter进一步提升了模型遵循长文本写作指令和生成高质量内容的能力。

LongWriter技术原理

AgentWrite代理框架：一个基于代理的流水线，将长文本生成任务分解为多个子任务，每个子任务生成文本的一个段落。
详细写作计划：在生成内容前，AgentWrite制定一个详细的写作计划，包括每个段落的结构和目标字数。
顺序生成：按照写作计划，AgentWrite逐步提示模型生成每个段落的内容，同时保持文本的连贯性。
数据集扩充：通过AgentWrite生成的LongWriter-6k数据集，扩充了现有模型训练数据，特别是在长文本输出方面的样本。
模型微调：将LongWriter-6k数据集与通用SFT数据结合，对现有模型进行微调，以适应长文本生成任务。
损失加权策略：在模型训练中采用按token平均损失的策略，确保长文本数据在训练中的贡献度。
直接偏好优化（DPO）：使用DPO进一步训练模型，以更好地遵循长文本写作指令，提高输出质量。

LongWriter：将现有模型的文本生成能力扩展到超过10,000字

LongWriter应用场景

学术论文撰写：自动生成或辅助完成长篇学术论文，提高研究效率。
技术文档编写：为技术产品编写详尽的用户手册或开发文档，确保信息全面。
新闻报道：快速生成深入报道和长篇新闻分析，提供详尽的事件背景和讨论。
市场研究报告：编制包含市场趋势、分析和预测的详细行业报告。
创意写作：辅助作家创作小说、剧本等长篇文学作品，激发创意并提高创作效率。
教育材料制作：为在线课程或教材开发编写详尽的教学内容和学习材料。

LongWriter项目入口

GitHub代码库：https://github.com/thudm/longwriter
arXiv研究论文：https://arxiv.org/abs/2408.07055

# 3-1.大语言模型 # 3.AI大模型数据库 # AI开源项目 # AI项目合集

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Make-It-Animatable：中科大联合腾讯推出的3D角色动画框架

AI-77cn

20

T2V-Turbo：谷歌等开发的一种创新的文本到视频生成模型

AI-77cn

90

Westlake-Omni：西湖心辰推出的中文情感端到端语音交互大模型

AI-77cn

90

StochSync：专门用于在任意空间中生成图像

AI-77cn

70

OmniBooth：华为联合香港科技大学推出的图像生成框架

AI-77cn

90

xGen-MM：Salesforce推出的一款开源多模态AI模型

AI-77cn

10

暂无评论

暂无评论...

一站式AI信息服务平台：AI工具大全、AI每日快讯、AI项目库、AI融资快报、AI研究报告、AI教程、AI副业、AI考证等。助您全面系统了解AI、使用AI

关于我们广告合作免责声明柒柒快讯

Copyright © 2025 柒柒AI导航粤ICP备2023146609号-1

粤公网安备44011102483711号