2.应用工具相关
Test-Time Training:英伟达联合斯坦福等大学推出的视频生成技术
Test-Time Training简介 Test-Time Training(TTT)是由 NVIDIA、斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和德克萨斯大学奥斯汀分校的研究团队...
SeniorTalk:南大联合北智开源的高龄老年人中文对话语音数据集
SeniorTalk简介 SeniorTalk是由南开大学计算机学院和北京人工智能研究院共同开源的中文对话数据集,专为75岁及以上的老年人设计。该数据集包含来自中国16个省...
A2A:谷歌开源的首个智能体交互协议
A2A简介 Agent2Agent(A2A)协议是由谷歌开源的首个标准智能体交互协议。它旨在打破不同AI智能体之间的技术壁垒,使来自不同框架或供应商的智能体能够无缝协...
OmniCam:浙江大学等推出的多模态视频生成框架
OmniCam简介 OmniCam是由浙江大学、上海交通大学、北京工业大学、江南大学、中国科学技术大学和南京大学联合开发的统一多模态视频生成框架。该框架通过相机控...
ACTalker:腾讯联合清华大学等推出的端到端视频扩散框架
ACTalker简介 ACTalker是由香港科技大学、腾讯和清华大学联合开发的端到端视频扩散框架,专门用于自然的“说话头”视频生成。该框架能够同时支持多信号控制和单...
ChildMandarin:南京大学等推出的普通话儿童语音数据集
ChildMandarin简介 ChildMandarin是由南开大学计算机学院与北京人工智能研究院联合开发的普通话儿童语音数据集,专注于3至5岁儿童的语音识别。该数据集包含41...
MagicColor:香港科技大学推出的多实例草图着色框架
MagicColor简介 MagicColor是由香港科技大学的研究团队共同开发的一种基于扩散模型的多实例草图着色框架。该框架通过自玩训练策略、实例引导器以及细粒度颜色...
IntrinsiX:直接从文本描述生成反照率、粗糙度、金属度和法线贴图
IntrinsiX简介 IntrinsiX是一种文本到PBR贴图生成方法,能够直接从文本描述中生成高质量的反照率、粗糙度、金属度和法线贴图。它通过利用预训练的文本到图像...
DeepSeek-GRM:DeepSeek联合清华推出的生成式奖励建模系统
DeepSeek-GRM简介 DeepSeek-GRM是由DeepSeek联合清华大学推出的生成式奖励建模(GRM)系统,旨在提升大型语言模型(LLMs)在强化学习中的推理时间可扩展性。...
AnimeGamer:腾讯联合港城大推出的无限动漫生活模拟系统
AnimeGamer简介 AnimeGamer是由腾讯PCG ARC实验室和香港城市大学联合开发的无限动漫生活模拟系统。该系统基于多模态大语言模型(MLLM),允许玩家通过开放式...