2.应用工具相关

UniTok:香港大学联合字节推出的统一视觉分词器

UniTok项目简介 UniTok是由香港大学、字节跳动公司和华中科技大学联合开发的一种创新的统一视觉分词器。它旨在弥合视觉生成与理解之间的差距,为多模态大语言...

PixelHacker:华科大联合VIVO 推出的新型图像修复模型

PixelHacker项目简介 PixelHacker是由华中科技大学和VIVO AI实验室联合开发的一种新型图像修复模型,旨在解决复杂结构和语义一致性问题。该模型基于潜在类别...

X-Fusion:Adobe等推出的创新多模态框架

X-Fusion项目简介 X-Fusion 是由加州大学洛杉矶分校、威斯康星大学麦迪逊分校和 Adobe Research 的研究团队共同开发的一种创新框架,旨在将预训练的大型语言...

KeySync:能够生成与输入音频紧密对齐的高分辨率视频

KeySync项目简介 KeySync是由帝国理工学院(Imperial College London)和弗罗茨瓦夫大学(University of Wrocław)的研究团队共同开发的一种先进的唇部同步框...

TesserAct:哈佛大学等推出的4D体现世界模型

TesserAct项目简介 TesserAct 是由 UMass Amherst、HKUST 和 Harvard University 的研究团队共同开发的一种创新的 4D 体现世界模型。该模型通过输入图像和文...

Embodied Reasoner:浙大联合阿里等机构推出的具身化交互模型

Embodied Reasoner项目简介 Embodied Reasoner是由浙江大学计算机科学与技术学院、中国科学院软件研究所、阿里巴巴集团和达摩院等机构联合开发的具身化交互模...

RepText:Shakker Labs推出的的文本渲染框架

RepText项目简介 RepText是由Shakker Labs开发的一种创新的文本渲染框架,旨在通过复制字符形状而非理解文本内容,实现高质量的多语言视觉文本渲染。该框架基...

UniToken:复旦大学联合美团等机构推出的视觉编码框架

UniToken项目简介 UniToken是由复旦大学智能信息处理实验室、上海智能视觉计算协同创新中心以及美团联合开发的自回归生成模型。该模型通过结合离散和连续的视...

DreamO:字节联合北大推出的统一图像定制框架

DreamO项目简介 DreamO是由字节跳动智能创作团队与北京大学电子与计算机工程学院联合开发的统一图像定制框架。它基于扩散变换器(DiT)架构,通过大规模训练...

Spatial-RAG:美国埃默里等大学推出的空间推理能力框架

Spatial-RAG项目简介 Spatial-RAG是由美国埃默里大学计算机科学系和德克萨斯大学奥斯汀分校地理与环境系联合开发的创新框架,旨在提升大型语言模型(LLMs)在...
1 2 3 4 85