2.应用工具相关 | 第 31 页

VideoCaptioner：能够实现视频字幕的全流程处理

VideoCaptioner 简介 VideoCaptioner 是一款智能字幕处理工具，基于大语言模型（LLM）技术，能够实现视频字幕的全流程处理，包括语音识别、字幕断句、优化、...

2-3.应用工具视频

5个月前

Zonos-v0.1简介 Zonos-v0.1是由Zyphra团队开发的文本到语音（TTS）模型，于2025年2月10日发布。它包含两个1.6B参数的模型：一个Transformer模型和一个SSM混合...

2-4.应用工具音频

5个月前

DynVFX简介 DynVFX是一种创新的视频编辑技术，能够根据简单的用户文本指令将动态内容无缝整合到真实视频中。它利用预训练的文本到视频扩散模型和视觉语言模型...

2-3.应用工具视频

5个月前

WorldSense简介 WorldSense是由小红书和上海交通大学联合开发的首个用于评估多模态大语言模型（MLLMs）在真实世界场景中对视听文本输入综合理解能力的基准测...

2-5.应用工具其他

5个月前

MotionCanvas简介 MotionCanvas是由香港中文大学、Adobe Research和莫纳什大学联合开发的一种创新的图像到视频生成系统。该系统通过引入场景感知的运动控制，...

2-3.应用工具视频

5个月前

MedRAX简介 MedRAX是由加拿大安大略省多伦多大学、多伦多大学健康网络（UHN）和多伦多向量研究所（Vector Institute）联合开发的医学人工智能代理框架，专门...

2-5.应用工具其他

5个月前

ZebraLogic简介 ZebraLogic是由华盛顿大学、艾伦人工智能研究所和斯坦福大学联合开发的评估框架，旨在系统研究大型语言模型（LLMs）在逻辑推理任务中的表现及...

2-5.应用工具其他

5个月前

Sonic简介 Sonic是由腾讯和浙江大学联合开发的一种新型音频驱动肖像动画技术。它通过创新的全局音频感知方法，专注于利用音频信号来生成高质量、自然且连贯的...

2-3.应用工具视频

5个月前

FireRedASR简介 FireRedASR是由小红书开源的普通话自动语音识别（ASR）模型系列，旨在满足不同应用场景对性能和效率的需求。该模型家族包含两个变体：FireRed...

2-4.应用工具音频

5个月前

MVoT简介 Multimodal Visualization-of-Thought（MVoT）是由微软研究院联合剑桥大学语言技术实验室和中国科学院自动化研究所共同提出的一种新型多模态推理范...

2-5.应用工具其他

5个月前