2.应用工具相关
EAFormer:复旦大学研发的边缘感知文本分割技术
EAFormer简介 EAFormer是一种先进的场景文本分割技术,由复旦大学的智能信息处理研究团队开发。这项技术通过利用边缘感知变换器(Edge-Aware Transformers)...
ReSyncer:可以实现音视频唇型同步、说话风格迁移和换脸
ReSyncer简介 ReSyncer是由清华大学BNRist实验室与百度公司共同开发的先进框架,它通过创新性地重新配置基于风格的生成器,并融合3D人脸动态预测技术,实现了...
UniBench:Meta等推出的视觉语言模型的系统性评估工具
UniBench简介 UniBench 是由 Meta、Univ Gustave Eiffel、CNRS 和 LIGM 联合开发的一项创新工具,旨在为视觉-语言模型(VLM)提供一个统一的评估平台。它集成...
Agents:以数据为中心、自我进化的自主语言代理的开源框架
Agents简介 Agents是由AIWaves开发的一种先进的语言代理框架,它通过结合大型语言模型(LLMs)的强大计算能力和复杂的提示技术,使得这些代理能够自主解决现...
VideoDoodles:可在视频中插入手绘动画 且与原视频内容无缝融合
VideoDoodles简介 VideoDoodles 是一项创新的视频编辑技术,它通过先进的3D场景重建和自定义追踪算法,使用户能够在视频中轻松添加手绘动画。这些动画不仅能...
Tailor:一款视频智能裁剪、视频生成和视频优化的工具
Tailor简介 Tailor是一款免费开源的视频编辑工具,它集成了先进的人工智能技术,提供视频剪辑、生成和优化三大功能。用户可以轻松实现人脸和语音的精准剪辑,...
VFusion3D:根据单个图像或文本描述生成高质量的 3D 素材
VFusion3D简介 VFusion3D是由Meta公司的GenAI团队和牛津大学Torr Vision Group联合开发的一种创新3D生成模型。这项技术突破性地利用预训练的视频扩散模型,通...
CodeFormer:南洋理工大学推出的一种盲人面部修复方法
CodeFormer简介 CodeFormer是由南洋理工大学S-Lab团队开发的一种先进的盲人面部修复方法。它利用一个学习到的离散代码本先验和基于Transformer的预测网络,将...
MDM:苹果开源的新型图像&视频生成模型
MDM简介 Matryoshka Diffusion Models(MDM)是由苹果公司开发的创新框架,旨在解决生成高分辨率图像和视频时面临的计算和优化挑战。MDM通过一个端到端的多分...
LSLM:具备边听边说能力的语音模型,实现实时的双向交流
LSLM简介 LSLM(Listening-while-Speaking Language Model)是由上海交通大学人工智能教育部重点实验室X-LANCE实验室与字节跳动公司联合开发的创新性端到端模...