2.应用工具相关
Alchemist:使用扩散模型控制图像中材料属性
Alchemist简介 Alchemist是一种先进的图像编辑方法,由谷歌和MIT CSAIL的联合研究团队开发。这项技术能够对真实图像中的物体材料属性进行精细控制,包括粗糙...
3DGS:实时渲染大规模3D场景
3DGS简介 3DGS(hierarchical-3d-gaussians)是一种用于新型视图合成的先进技术,它通过将场景表示为一组具有位置、协方差、不透明度和颜色属性的3D高斯体积...
Surgical RT:通过模仿学习实现机器人手术操作的潜力
Surgical RT简介 Surgical RT(Surgical Robot Transformer)是由约翰霍普金斯大学和斯坦福大学的研究团队共同开发的一项创新研究,旨在通过模仿学习技术,提...
CLASI:腾讯开发的一种先进的同声传译系统
CLASI简介 CLASI是由腾讯研究团队开发的一种先进的同声传译系统,旨在通过利用大型语言模型(LLM)实现与人类口译员相媲美的翻译质量和流畅度。CLASI采用了创...
Open-Sora-Plan:致力于复现OpenAI的文本转视频模型Sora
Open-Sora-Plan简介 Open-Sora Plan是由北京大学-兔展AIGC联合实验室发起的一个开源项目,致力于复现OpenAI的文本到视频模型Sora。该项目通过社区协作,不断...
Fooocus:一个免费且开源的文本到图像生成工具,类似SD和MJ
Fooocus简介 Fooocus是一款集创新与便捷于一身的开源AI图像生成工具,它重新构建了Stable Diffusion和Midjourney等现有模型的设计,基于Gradio框架开发。这款...
SpeechGPT:复旦大学等推出的跨模态对话模型
SpeechGPT简介 SpeechGPT 是由复旦大学计算机科学学院和智能信息处理上海重点实验室的研究团队开发的一项创新技术。这项技术突破了传统大型语言模型的局限,...
GaussianEditor:使用高斯溅射实现快速且可控的 3D 编辑
GaussianEditor 简介 GaussianEditor是由南洋理工大学S-Lab和计算机科学与工程学院,以及清华大学计算机科学与技术系的联合研究团队开发的一种创新3D编辑算法...
Bark: Suno AI 推出的一个开源文本到音频模型
Bark简介 Bark 是由 Suno AI 推出的一个开源文本到音频模型,它基于转换器架构,能够生成逼真的多语言语音以及其他类型的音频,包括音乐、背景噪音和简单的音...
Stable Video 4D:Stability AI最新推出的用于动态多角度视频生成的 AI 模型
Stable Video 4D简介 Stable Video 4D 是由 Stability AI 推出的一款人工智能视频生成模型。它通过先进的算法,能够将单一视频输入转化为八个不同视角下的多...