TITAN:哈佛医学院等推出的多模态全切片病理基础模型

TITAN简介 TITAN是由Mass General Brigham、哈佛医学院和麻省理工学院的联合研究团队开发的一种多模态全切片病理基础模型,它通过自监督学习和视觉语言对齐技...

VITRON:Skywork AI联合新加坡国立大学等推出的视觉大型语言模型

VITRON简介 VITRON是由Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大型语言模型(LLM),它能够全面理解、生成、分割和编辑静态图像及动...

MMedAgent:斯坦福大学等高校推出的一款多模态医疗AI代理

MMedAgent简介 MMedAgent是由斯坦福大学、哈佛大学医学院、弗吉尼亚理工大学、密歇根州立大学、香港中文大学、清华大学和杜克大学联合开发的一款多模态医疗AI...

2025年1月AI快讯

2025.1.31 1.英伟达:DeepSeek R1有最先进推理能力,现已上架NVIDIA NIM 据英伟达官网最新消息,为了帮助开发人员安全地试验这些功能并构建自己的专用代理,6...

VMix:提升文本到图像扩散模型美学质量

VMix简介 VMix是一种创新的即插即用美学适配器,旨在通过交叉注意力混合控制方法提升文本到图像扩散模型生成的图像质量。它通过将输入文本提示分离为内容描述...

Edicho:能够在不同图像间实现一致性编辑

Edicho简介 Edicho是一种基于扩散模型的创新图像编辑工具,它能够在不同图像间实现一致性编辑,解决了因环境变化导致的编辑不一致问题。通过利用显式图像对应...

1.58-bit FLUX:高效文本到图像生成模型

1.58-bit FLUX简介 1.58-bit FLUX是一种创新的文本到图像生成模型,它通过将最先进的FLUX模型的权重量化到1.58位(即{-1, 0, +1}中的值),在保持图像生成质...

TANGOFLUX:英伟达联合新加坡科大推出的文本到音频生成模型

TANGOFLUX简介 TANGOFLUX是由新加坡科技设计大学和NVIDIA共同开发的文本到音频生成模型,拥有约5.15亿参数,能够在3.7秒内生成长达30秒的44.1kHz音频。该模型...

TryOffAnyone:从模特穿着的照片中生成高保真的平铺服装图像

TryOffAnyone简介 TryOffAnyone是一项利用深度学习和计算机视觉技术从穿着服装的人像照片中生成高保真平铺服装图像的技术。它通过微调StableDiffusion模型,...

Orient Anything:浙江大学等推出的首个单图像物体方向估计模型

Orient Anything简介 Orient Anything是由浙江大学、Sea AI Lab和香港大学的开发团队共同研发的一种创新方法,旨在从单张图像中准确估计物体的方向。该方法通...
1 74 75 76 77 78 217