DisEnvisioner:根据用户提供的视觉提示和文本指令生成个性化的图像

DisEnvisioner简介 DisEnvisioner是由香港科技大学(广州)和诺亚方舟实验室联合开发的一种创新图像生成模型,它通过分离和丰富视觉提示中的主体本质特征,有...

RF-Inversion:Google推出的一种图像反演和编辑方法

RF-Inversion简介 RF-Inversion是由Google和UT Austin的研究团队开发的一种先进的图像反演和编辑方法,它利用修正随机微分方程(Rectified Stochastic Differ...

Animate-X:从参考图像和目标姿势序列生成高质量的视频

Animate-X简介 Animate-X是由蚂蚁集团和阿里巴巴集团的研究人员共同开发的一种先进的角色图像动画技术。这项技术通过引入创新的姿势指示器(Pose Indicator)...

Meissonic:开源可商用的非自回归文本到图像生成模型

Meissonic简介 Meissonic是由Skywork AI团队开发的一款先进的文本到图像生成模型,它通过创新的非自回归遮蔽图像建模(MIM)技术,实现了与业界领先的扩散模...

Invoke 5.0:同时支持 Stable Diffusion、Flux等主流AI绘画模型

Invoke 5.0简介 Invoke 5.0 是 Invoke AI 平台的重大更新,带来了许多创新功能和增强体验。新推出的控制画布工具使用户能够在一个工作区内生成、迭代和精细化...

SANA:能够生成高达4096×4096分辨率的图像

SANA简介 SANA是由NVIDIA、麻省理工学院和清华大学的联合研究团队开发的一种高效的文本到图像生成框架,它能够快速生成高达4096×4096分辨率的高清晰度图像。...

Loong:香港大学与字节跳动联合推出的一款长视频生成模型

Loong简介 Loong是由香港大学与字节跳动公司联合开发的一款新型的长视频生成模型,它能够生成内容连贯、动态丰富的分钟级长视频。该模型通过将文本和视频标记...

Surya:一个多语言文档光学字符识别(OCR)工具包

Surya简介 Surya是一个多语言文档光学字符识别(OCR)工具包,支持超过90种语言的文本识别。它具备精确的逐行文本检测和布局分析能力,能够智能识别文档中的...

MM1.5:苹果公司推出的多模态大型语言模型

MM1.5简介 MM1.5是苹果公司推出的多模态大型语言模型,旨在提升模型在文本丰富的图像理解、视觉指代和定位以及多图像推理方面的能力。该模型包括不同规模的版...

ScriptViz:斯坦福大学开发的一款剧本可视化辅助工具

ScriptViz简介 ScriptViz是由斯坦福大学的研究团队开发的一款创新的剧本可视化辅助工具,它通过利用大型电影数据库为编剧提供实时的视觉参考图像。该工具通过...
1 99 100 101 102 103 214