SEED-Story:保持角色一致性,完成故事配图与文字的多模态模型

SEED-Story项目简介

SEED-Story是由香港科技大学(广州)与腾讯PCG的ARC实验室联合开发的创新性多模态长篇故事生成方法。该方法利用多模态大型语言模型(MLLM)的能力,通过结合文本和图像的复杂交互,生成连贯且内容丰富的叙述性文本和栩栩如生的图像。SEED-Story的突出特点包括高效的多模态注意力汇聚机制,能够生成超过训练序列长度的长篇故事,以及专为多模态故事生成设计的大规模高分辨率数据集StoryStream,推动了多模态故事叙述技术的发展。

SEED-Story:保持角色一致性,完成故事配图与文字的多模态模型

SEED-Story主要功能

❶多模态故事生成:SEED-Story能够生成包含丰富文本叙述和相关图像的长故事。
❷用户交互性:用户可以提供故事的起始文本和图像,SEED-Story在此基础上继续发展故事。
❸图像与文本的一致性:生成的故事中图像与文本在风格和内容上保持高度一致性。
❹长篇故事支持:能够生成长达25个多模态序列的故事,超出了训练时使用的序列长度限制。

SEED-Story技术原理

❶多模态大型语言模型(MLLM):利用MLLM的强大理解能力,同时预测文本和视觉标记。
❷视觉标记化与去标记化:使用预训练的视觉Transformer(ViT)作为视觉标记器,以及预训练的扩散模型作为视觉去标记器,将图像转换为特征输入。
❸多模态注意力汇聚机制:提出基于窗口注意力的多模态注意力汇聚机制,保持最近令牌的关键值状态的固定大小滑动窗口,以有效生成长篇故事。
❹故事指令调整:在故事指令调整阶段,模型通过采样随机长度的故事数据子集,并预测下一个图像和故事文本的下一句话。
❺去标记器适应:在去标记器适应阶段,对SD-XL图像去标记器进行微调,以增强生成图像的风格和纹理一致性。
❻StoryStream数据集:引入专为多模态故事生成训练和评估而设计的大规模、高分辨率数据集,包含叙事丰富的文本和引人入胜的图像。
❼评估指标设计:精心设计的评估指标,考量图像风格一致性、故事参与度和图像-文本一致性,以量化评估多模态故事生成的效果。

SEED-Story:保持角色一致性,完成故事配图与文字的多模态模型

SEED-Story适用人群

❶创意作家和编剧:需要生成故事概念或寻找创作灵感的专业人士。
❷教育工作者:利用多模态故事来增强教学内容,提高学生学习兴趣。
❸游戏开发者:设计游戏中的动态故事线和角色互动。
❹动画制作者:快速生成动画剧本和角色概念,加速创作流程。
❺广告和市场营销专家:创造吸引人的叙述性广告内容,提升品牌故事。
❻研究人员和学者:在人工智能、自然语言处理和机器学习领域的学术研究。
❼技术开发者:对多模态交互和内容生成技术感兴趣的开发者。
❽儿童和家长:作为教育工具或娱乐手段,共同享受故事创作的乐趣。
❾数字艺术家:探索新的创作方法,结合文本和视觉艺术。
❿内容创作者:为社交媒体、博客或视频制作引人入胜的故事内容。

SEED-Story项目入口

© 版权声明

相关文章

暂无评论

暂无评论...