AI开源项目
Video Seal:Meta 推出的开源视频水印框架
Video Seal简介 Video Seal是由Meta FAIR团队开发的一款先进的开源视频水印框架,旨在应对数字媒体和AI生成内容领域中的版权保护和内容审核挑战。该框架通过...
SwiftEdit:通过简单的文本提示 快速实现对图像的编辑和修改
SwiftEdit简介 SwiftEdit是由VinAI Research团队开发的一种革命性的文本引导图像编辑工具,它通过创新的一步扩散模型技术,能够在短短0.23秒内实现快速且高质...
Phi-4:微软推出的14亿参数的大型语言模型
Phi-4简介 Phi-4是由微软研究团队开发的14亿参数的大型语言模型,它通过专注于数据质量的训练方法,在STEM领域的问答能力上超越了其教师模型GPT-4。该模型在...
Meta Motivo:Meta推出的无监督强化学习控制数字智能体
Meta Motivo简介 Meta Motivo是由Meta公司的研究团队开发的一款先进的人工智能模型,旨在通过无监督强化学习方法控制数字智能体的动作。该模型能够模拟人类行...
POINTS1.5:腾讯微信推出的多模态大模型
POINTS1.5简介 POINTS1.5是由腾讯微信推出的多模态大模型,旨在提升对现实世界应用的处理能力。该模型在POINTS1.0的基础上进行了重大创新,包括采用NaViT风格...
StyleMaster:快手联合香港科技大学开发的视频风格化技术
StyleMaster简介 StyleMaster是由香港科技大学与快手科技联合开发的一项先进的视频风格化技术。该技术通过创新的风格提取模块和模型幻觉生成的配对图像数据集...
StyleStudio:西湖人文实验室开发文本驱动风格迁移模型
StyleStudio简介 StyleStudio是由西湖大学人工智能实验室、复旦大学和南洋理工大学联合开发的一款文本驱动的风格迁移工具。该工具通过创新的自适应实例归一化...
Leffa:能够根据参考图像(如服装图片)生成人物图像
Leffa简介 Leffa(Learning Flow Fields in Attention)是由Meta AI团队开发的一种创新方法,旨在提高可控人物图像生成的质量和控制精度。通过在注意力机制中...
DiffSensei:北大联合上海人工智能实验室推出的AI漫画生成框
DiffSensei简介 DiffSensei是由北京大学和上海人工智能实验室联合开发的一项创新框架,旨在通过结合多模态大型语言模型(MLLM)和扩散模型,实现定制化漫画的...
Maya:能够处理和理解八种不同语言的图像和文本数据
Maya简介 Maya是一个开源的多语言多模态视觉语言模型,旨在提升机器对低资源语言和多样文化背景的理解能力。它基于LLaVA框架,提供了一个包含八种语言的558,0...