2.应用工具相关
URAE:用于超高分辨率图像生成的适应框架
URAE简介 URAE(Ultra-Resolution Adaptation with Ease)是由新加坡国立大学(National University of Singapore)的研究团队开发的一套用于超高分辨率图像...
MoshiVis:Kyutai开源的多模态语音模型
MoshiVis简介 MoshiVis是由Kyutai开源的多模态语音模型,旨在结合视觉理解和语音交互能力,使模型能够自然地与用户进行关于图像内容的实时语音对话。该模型基...
Video-T1:通过测试时扩展(TTS)显著提升视频生成质量
Video-T1简介 Video-T1 是一种创新的视频生成框架,旨在通过测试时扩展(Test-Time Scaling, TTS)显著提升视频生成质量。它将视频生成的 TTS 重新定义为从高...
BlockDance:复旦大学联合字节推出的扩散模型加速方法
BlockDance简介 BlockDance是由复旦大学智能信息处理实验室、上海智能视觉计算协同创新中心以及字节跳动智能创作团队共同开发的一种加速扩散变换器(Diffusio...
SISO:个性化图像生成和编辑技术
SISO简介 SISO(Single Image Subject Optimization)是一种图像生成和编辑技术,能够在无需训练的情况下,仅通过一张特定主题的图像来个性化图像生成和编辑...
Shining Yourself:商汤联合西安交通大学推出的虚拟试戴技术
Shining Yourself简介 “Shining Yourself”是由西安交通大学和商汤科技研究团队共同开发的一种高保真饰品虚拟试戴技术。该技术基于扩散模型,首次实现了包括手...
RuoYi AI:快速构建和部署个性化的 AI 应用
RuoYi AI简介 RuoYi AI 是一个全栈式 AI 开发平台,旨在帮助开发者快速构建和部署个性化的 AI 应用。它提供了完整的前端应用、后台管理以及小程序应用,基于 ...
Geometry-Aware:修复多视角图像集中被遮挡或缺失的部分
Geometry-Aware简介 Geometry-Aware Diffusion Models是一种3D场景修复技术,用于处理多视角图像集中部分图像被遮挡或缺失的问题。该方法通过几何感知的条件...
Soundwave:香港中文大学推出的语音理解模型
Soundwave简介 Soundwave是由香港中文大学(深圳)的研究团队开发的一种高效的语音与文本对齐技术,旨在提升语音大语言模型(LLMs)的数据效率。该团队针对语...
AbletonMCP:实现更高效的音乐制作流程
AbletonMCP简介 AbletonMCP 是一个将 Ableton Live 与 Claude AI 通过 Model Context Protocol (MCP) 连接起来的集成工具。它允许 Claude AI 直接控制和操作 ...