DRT-o1:微信AI团队推出的长链条思考神经机器翻译模型
DRT-o1简介 DRT-o1是由微信人工智能团队开发的神经机器翻译模型,旨在通过长链条思考(CoT)来提升翻译质量,特别是在处理包含比喻和隐喻的文学作品时。该模...
WiS平台:阿里推出的评估LLM多智能体系统工具
WiS简介 WiS(Who is Spy?)平台是由阿里巴巴的淘宝和天猫团队开发的一款创新工具,旨在通过基于游戏的分析方法,增强对基于大型语言模型(LLMs)的多智能体...
Video Prediction Policy:基于视频扩散模型的通用机器人策略
Video Prediction Policy简介 Video Prediction Policy (VPP) 是由清华大学工业智能与系统研究所(IIIS)和加州大学伯克利分校联合开发的一种先进的机器人策...
MegaSaM:从单目视频中准确估计相机的姿态和焦距
MegaSaM简介 MegaSaM是由Google DeepMind联合加州大学伯克利分校和密歇根大学的研究团队开发的一种先进系统,它能够从非正式的动态场景单目视频中准确、快速...
DreamOmni:图像生成与编辑的多任务统一模型
DreamOmni简介 DreamOmni 是由字节跳动、香港中文大学和香港科技大学联合推出的一款图像生成和编辑模型。该模型通过统一框架整合了文本到图像(T2I)生成和多...
IDOL:从单张图片快速创建高分辨率的3D人物模型
IDOL简介 IDOL是一个创新的前馈单图像人物重建框架,能够快速、高保真地从单张图片中创建出逼真的3D全身人物化身。它利用一个大规模的多视图数据集HuGe100K,...
VisionFM:多模态多任务眼科人工智能模型
VisionFM简介 VisionFM是一个多模态多任务视觉基础模型,专为综合眼科人工智能设计。它通过预训练3.4百万张覆盖广泛眼科疾病、模态和人群的图像,展现出超越...
VSI-Bench:李飞飞等推出的视觉空间智能测试基准
VSI-Bench简介 VSI-Bench是由李飞飞、纽约大学、耶鲁大学和斯坦福大学的研究团队共同开发的一项新颖的视频基础视觉空间智能基准测试。该基准测试包含超过5000...
HelloMeme:专注于生成具有高度细节和真实感的表情包视频
HelloMeme简介 HelloMeme是一种文本到图像扩散模型,专注于生成具有高度细节和真实感的表情包视频。它通过优化2D特征图相关的注意力机制,提升了模型在处理夸...
InvSR:从低分辨率图像恢复出高分辨率图像
InvSR简介 InvSR是一种创新的图像超分辨率技术,由南洋理工大学S-Lab的团队开发。这项技术基于扩散反转原理,通过预测最优噪声图来初始化采样过程,从而利用...