StoryWeaver:知识增强型故事角色定制模型
StoryWeaver简介
StoryWeaver是一个知识增强型故事角色定制模型,旨在通过构建角色图谱(Character Graph)和知识增强型空间引导(KE-SG)技术,实现故事中的角色个性化定制和高质量故事可视化。它能够将文本叙述转化为一系列与故事情节同步的图像,同时保持角色身份的一致性和文本语义的对齐。通过精确注入角色语义和优化跨注意力机制,StoryWeaver在多角色故事生成中表现出色,有效解决了身份混合问题,提升了故事可视化的准确性和丰富性。
StoryWeaver主要功能
- 角色个性化定制:能够根据文本叙述和角色的肖像图像,生成一系列视觉表现故事的图像,同时保持角色身份的一致性。
- 故事可视化:将文本叙事转化为视觉故事,生成与故事情节同步的图像序列。
- 知识图谱构建:通过构建角色图谱(Character Graph)来综合表示故事相关的知识,包括角色、角色属性和角色间关系。
- 多角色生成性能提升:通过知识增强型空间引导(KE-SG),提高多角色故事可视化的性能,解决身份混合问题。
StoryWeaver技术原理
- 角色图谱(CG)构建:
- 使用视觉语言模型(VLM)从角色图像中提取详细的描述性字幕。
- 利用场景图解析器从字幕中提取角色相关的详细语义,构建角色图谱。
- 基于角色图谱的定制(C-CG):
- 将角色图谱转换为增强的场景字幕对,以指导图像生成器(StoryWeaver)生成具有丰富文本语义的一致性故事可视化图像。
- 知识增强型空间引导(KE-SG):
- 引入知识编码器提取不同角色的特征,并修改初始位置先验,以精确定制多角色,解决身份混合问题。
- 通过外部知识精确地将角色知识引导到故事场景中的相应区域,确保精确的身份表示和连贯的文本语义。
- 跨注意力机制的修改:
- 通过KE-SG修改扩散模型中的跨注意力机制,以实现对角色知识的正确关注分配,提高多角色故事可视化任务的性能。
- 新基准TBC-Bench:
- 构建了一个新的基准数据集TBC-Bench,用于训练和评估StoryWeaver在单角色和多角色故事可视化任务中的表现。
StoryWeaver应用场景
- 儿童教育:通过生成与故事内容同步的图像,提高儿童对教材的吸引力和理解力。
- 漫画创作:自动化生成漫画书中的角色和场景,加速漫画创作流程。
- 电影制作:在前期制作中快速可视化剧本,帮助导演和制作团队预览场景。
- 游戏开发:为游戏设计提供动态故事板,增强游戏体验的剧情连贯性。
- 广告行业:根据产品特点定制故事广告,使广告内容更加吸引人和记忆深刻。
- 虚拟现实:在虚拟现实环境中创建动态故事体验,提升用户的沉浸感。
StoryWeaver项目入口
- GitHub代码库:https://github.com/Aria-Zhangjl/StoryWeaver
- arXiv研究论文:https://arxiv.org/pdf/2412.07375
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...