2-2.应用工具图像
RepText:Shakker Labs推出的的文本渲染框架
RepText项目简介 RepText是由Shakker Labs开发的一种创新的文本渲染框架,旨在通过复制字符形状而非理解文本内容,实现高质量的多语言视觉文本渲染。该框架基...
DreamO:字节联合北大推出的统一图像定制框架
DreamO项目简介 DreamO是由字节跳动智能创作团队与北京大学电子与计算机工程学院联合开发的统一图像定制框架。它基于扩散变换器(DiT)架构,通过大规模训练...
Concept Lancet:宾夕法尼亚大学推出的新型图像编辑框架
Concept Lancet项目简介 Concept Lancet(CoLan)是由宾夕法尼亚大学的研究团队开发的一种新型图像编辑框架,旨在通过精确的表示操作改善基于扩散模型的图像...
LAM:从单张图像中重建出一个可动画化的高斯头像
LAM项目简介 LAM(Large Avatar Model)是由阿里巴巴集团通义实验室开发的一种创新的高斯头像生成技术,它可以从单张图像生成可动画化的高斯头像。LAM的核心...
SimpleAR:复旦大学联合字节推出的图像生成模型
SimpleAR项目简介 SimpleAR是由复旦大学和字节跳动团队共同开发的一种自回归视觉生成框架。该框架通过预训练、监督微调和强化学习等优化手段,在仅使用0.5亿...
Aether:通过几何感知推理推动世界模型的发展
Aether项目简介 AETHER是由上海人工智能实验室开发的一个创新性统一框架,旨在通过几何感知推理推动世界模型的发展。该框架通过联合优化4D动态重建、动作条件...
Infinite Mobility:大规模合成高保真的关节物体
Infinite Mobility项目简介 Infinite Mobility是由上海人工智能实验室、华南理工大学、中国科学技术大学、同济大学、复旦大学、哈尔滨工业大学(深圳)、中国...
GigaTok:用于自回归图像生成的视觉分词器
GigaTok项目简介 GigaTok是由香港大学和字节跳动联合开发的项目,旨在通过扩展视觉分词器的参数规模来提升自回归图像生成的性能。该项目首次提出了一种语义正...
InstantCharacter:腾讯联合InstantX推出的角色定制化框架
InstantCharacter项目简介 InstantCharacter是由腾讯混元团队和InstantX团队共同开发的创新性角色定制化框架。它基于可扩展的扩散变换器(Diffusion Transfor...
MineWorld:微软研究院开发的一个实时交互式世界模型
MineWorld项目简介 MineWorld是由微软研究院开发的一个实时交互式世界模型,基于热门游戏Minecraft。该模型利用视觉-动作自回归Transformer架构,通过将游戏...