2-5.应用工具其他
新HuatuoGPT-o1:医疗领域复杂推理的大型语言模型
HuatuoGPT-o1简介 HuatuoGPT-o1是由中国香港中文大学(深圳)与深圳大数据研究院联合开发的一款专门针对医疗领域复杂推理任务的大型语言模型(LLM)。该模型...
Aria-UI:能够将自然语言指令定位到GUI中的特定元素
Aria-UI简介 Aria-UI是一个专为图形用户界面(GUI)指令的视觉基础定位而设计的新型大型多模态模型。它采用纯视觉方法,不依赖于HTML或AXTree等辅助输入,通...
ASAL:利用基础模型自动化搜索人工生命模拟的方法
ASAL简介 ASAL(Automated Search for Artificial Life)是一种利用先进视觉语言基础模型来自动化探索人工生命模拟的方法。它通过评估模拟产生的视频,能够发...
OpenEMMA:开源的多模态自动驾驶模型
OpenEMMA简介 OpenEMMA是由德州农工大学、密歇根大学和多伦多大学的研究团队共同开发的开源端到端自动驾驶框架。该框架基于多模态大型语言模型(MLLMs),通...
FinRobot:专为金融应用设计的开源A Agent平台
FinRobot简介 FinRobot是一个创新的开源AI Agent平台,专为金融应用设计,以大型语言模型(LLMs)为核心,提供金融专业分析工具。该平台通过其四层架构——金融...
DRT-o1:微信AI团队推出的长链条思考神经机器翻译模型
DRT-o1简介 DRT-o1是由微信人工智能团队开发的神经机器翻译模型,旨在通过长链条思考(CoT)来提升翻译质量,特别是在处理包含比喻和隐喻的文学作品时。该模...
WiS平台:阿里推出的评估LLM多智能体系统工具
WiS简介 WiS(Who is Spy?)平台是由阿里巴巴的淘宝和天猫团队开发的一款创新工具,旨在通过基于游戏的分析方法,增强对基于大型语言模型(LLMs)的多智能体...
Video Prediction Policy:基于视频扩散模型的通用机器人策略
Video Prediction Policy简介 Video Prediction Policy (VPP) 是由清华大学工业智能与系统研究所(IIIS)和加州大学伯克利分校联合开发的一种先进的机器人策...
VisionFM:多模态多任务眼科人工智能模型
VisionFM简介 VisionFM是一个多模态多任务视觉基础模型,专为综合眼科人工智能设计。它通过预训练3.4百万张覆盖广泛眼科疾病、模态和人群的图像,展现出超越...
VSI-Bench:李飞飞等推出的视觉空间智能测试基准
VSI-Bench简介 VSI-Bench是由李飞飞、纽约大学、耶鲁大学和斯坦福大学的研究团队共同开发的一项新颖的视频基础视觉空间智能基准测试。该基准测试包含超过5000...