2.应用工具相关

VideoCaptioner:能够实现视频字幕的全流程处理

VideoCaptioner 简介 VideoCaptioner 是一款智能字幕处理工具,基于大语言模型(LLM)技术,能够实现视频字幕的全流程处理,包括语音识别、字幕断句、优化、...

Zonos-v0.1:Zyphra推出的文本转语音模型

Zonos-v0.1简介 Zonos-v0.1是由Zyphra团队开发的文本到语音(TTS)模型,于2025年2月10日发布。它包含两个1.6B参数的模型:一个Transformer模型和一个SSM混合...

DynVFX:通过文本指令将动态内容无缝整合到真实视频中

DynVFX简介 DynVFX是一种创新的视频编辑技术,能够根据简单的用户文本指令将动态内容无缝整合到真实视频中。它利用预训练的文本到视频扩散模型和视觉语言模型...

WorldSense:小红书联合交大推出的多模态评估新基准

WorldSense简介 WorldSense是由小红书和上海交通大学联合开发的首个用于评估多模态大语言模型(MLLMs)在真实世界场景中对视听文本输入综合理解能力的基准测...

MotionCanvas:在设计电影镜头时灵活地操控相机和物体的运动

MotionCanvas简介 MotionCanvas是由香港中文大学、Adobe Research和莫纳什大学联合开发的一种创新的图像到视频生成系统。该系统通过引入场景感知的运动控制,...

MedRAX:加拿大高校推出的医学人工智能代理框架

MedRAX简介 MedRAX是由加拿大安大略省多伦多大学、多伦多大学健康网络(UHN)和多伦多向量研究所(Vector Institute)联合开发的医学人工智能代理框架,专门...

ZebraLogic:华盛顿大学联合斯坦福大学等推出的评估框架

ZebraLogic简介 ZebraLogic是由华盛顿大学、艾伦人工智能研究所和斯坦福大学联合开发的评估框架,旨在系统研究大型语言模型(LLMs)在逻辑推理任务中的表现及...

Sonic:腾讯联合浙大推出的新型音频驱动肖像动画技术

Sonic简介 Sonic是由腾讯和浙江大学联合开发的一种新型音频驱动肖像动画技术。它通过创新的全局音频感知方法,专注于利用音频信号来生成高质量、自然且连贯的...

FireRedASR:小红书开源的普通话自动语音识别模型

FireRedASR简介 FireRedASR是由小红书开源的普通话自动语音识别(ASR)模型系列,旨在满足不同应用场景对性能和效率的需求。该模型家族包含两个变体:FireRed...

MVoT:微软联合中科院推出的新型多模态推理范式

MVoT简介 Multimodal Visualization-of-Thought(MVoT)是由微软研究院联合剑桥大学语言技术实验室和中国科学院自动化研究所共同提出的一种新型多模态推理范...
1 29 30 31 32 33 85