SEED-Story：保持角色一致性，完成故事配图与文字的多模态模型

0 10

SEED-Story项目简介

SEED-Story是由香港科技大学（广州）与腾讯PCG的ARC实验室联合开发的创新性多模态长篇故事生成方法。该方法利用多模态大型语言模型（MLLM）的能力，通过结合文本和图像的复杂交互，生成连贯且内容丰富的叙述性文本和栩栩如生的图像。SEED-Story的突出特点包括高效的多模态注意力汇聚机制，能够生成超过训练序列长度的长篇故事，以及专为多模态故事生成设计的大规模高分辨率数据集StoryStream，推动了多模态故事叙述技术的发展。

SEED-Story主要功能

❶多模态故事生成：SEED-Story能够生成包含丰富文本叙述和相关图像的长故事。
❷用户交互性：用户可以提供故事的起始文本和图像，SEED-Story在此基础上继续发展故事。
❸图像与文本的一致性：生成的故事中图像与文本在风格和内容上保持高度一致性。
❹长篇故事支持：能够生成长达25个多模态序列的故事，超出了训练时使用的序列长度限制。

SEED-Story技术原理

❶多模态大型语言模型（MLLM）：利用MLLM的强大理解能力，同时预测文本和视觉标记。
❷视觉标记化与去标记化：使用预训练的视觉Transformer（ViT）作为视觉标记器，以及预训练的扩散模型作为视觉去标记器，将图像转换为特征输入。
❸多模态注意力汇聚机制：提出基于窗口注意力的多模态注意力汇聚机制，保持最近令牌的关键值状态的固定大小滑动窗口，以有效生成长篇故事。
❹故事指令调整：在故事指令调整阶段，模型通过采样随机长度的故事数据子集，并预测下一个图像和故事文本的下一句话。
❺去标记器适应：在去标记器适应阶段，对SD-XL图像去标记器进行微调，以增强生成图像的风格和纹理一致性。
❻StoryStream数据集：引入专为多模态故事生成训练和评估而设计的大规模、高分辨率数据集，包含叙事丰富的文本和引人入胜的图像。
❼评估指标设计：精心设计的评估指标，考量图像风格一致性、故事参与度和图像-文本一致性，以量化评估多模态故事生成的效果。

SEED-Story适用人群

❶创意作家和编剧：需要生成故事概念或寻找创作灵感的专业人士。
❷教育工作者：利用多模态故事来增强教学内容，提高学生学习兴趣。
❸游戏开发者：设计游戏中的动态故事线和角色互动。
❹动画制作者：快速生成动画剧本和角色概念，加速创作流程。
❺广告和市场营销专家：创造吸引人的叙述性广告内容，提升品牌故事。
❻研究人员和学者：在人工智能、自然语言处理和机器学习领域的学术研究。
❼技术开发者：对多模态交互和内容生成技术感兴趣的开发者。
❽儿童和家长：作为教育工具或娱乐手段，共同享受故事创作的乐趣。
❾数字艺术家：探索新的创作方法，结合文本和视觉艺术。
❿内容创作者：为社交媒体、博客或视频制作引人入胜的故事内容。