2.应用工具相关

Skywork R1V:昆仑万维开源的多模态推理模型

Skywork R1V简介 Skywork R1V是由昆仑万维开源的多模态推理模型,它通过高效的多模态转移技术,将R1系列大型语言模型的推理能力扩展到视觉模态。该模型利用轻...

SmolDocling:专为端到端多模态文档转换而设计

SmolDocling简介 SmolDocling是由IBM Research和HuggingFace联合开发的超紧凑型视觉-语言模型,专为端到端多模态文档转换而设计。该模型通过生成DocTags标记...

Silent Branding Attack:在生成的图像中嵌入特定品牌标志或符号

Silent Branding Attack简介 Silent Branding Attack 是由韩国科学技术院(KAIST)和 DeepAuto.ai 团队开发的一种新型数据投毒攻击方法,专门针对文本到图像...

I2V3D:将静态图像转化为具有精确 3D 控制的动态视频

I2V3D简介 I2V3D 是由香港城市大学和微软通用人工智能项目团队共同开发的一种创新框架,旨在将静态图像转化为具有精确 3D 控制的动态视频。该技术结合了计算...

AMIS:百度团队开发的前端低代码框架

AMIS 简介 AMIS 是由百度团队开发的前端低代码框架,旨在通过简洁的 JSON 配置快速生成各种后台页面。它极大地降低了开发成本,即使开发者对前端技术不熟悉,...

Chirp 3:谷歌云推出的高清语音合成模型

Chirp 3 简介 Chirp 3 是由谷歌云开发的高清语音合成模型。该模型专为生成自然、生动且富有情感的语音而设计,支持 248 种不同声音和 31 种语言,能够捕捉人...

ReCamMaster:快手联合浙大等推出的视频重渲染框架

ReCamMaster简介 ReCamMaster是由浙江大学、快手科技、香港中文大学和华中科技大学的研究团队共同开发的一种创新的视频重渲染框架。该框架能够通过改变相机轨...

MM-Eureka:上海交通大学等推出的多模态推理模型

MM-Eureka简介 MM-Eureka是由上海人工智能实验室、上海创新研究院、上海交通大学和香港大学联合开发的多模态推理模型。该模型通过大规模基于规则的强化学习(...

AudioX:香港科技大学联合月之暗面推出的多模态音频生成框架

AudioX简介 AudioX 是由香港科技大学和月之暗面联合开发的多模态音频生成框架,旨在通过统一的模型架构实现从文本、视频、图像等多种输入模态生成高质量的音...

Thera:实现了在任意分辨率下的高质量图像重建

Thera简介 Thera是由苏黎世联邦理工学院(ETH Zurich)和苏黎世大学(University of Zurich)联合开发的一种新型任意尺度超分辨率(ASR)技术。它通过神经热...
1 9 10 11 12 13 81