AI项目库

Notion MCP Server:Notion官方开发的开源项目

Notion MCP Server 简介 Notion MCP Server 是一个由 Notion 官方开发的开源项目,旨在通过 MCP(Machine Content Processing)技术为 Notion API 提供强大的...

UNO:字节跳动推出的新型图像生成模型

UNO简介 UNO是由字节跳动推出的新型图像生成模型。它通过“少到多”的泛化方法,利用上下文生成能力解锁了更多的可控性,能够实现从单主体到多主体的高一致性图...

Versatile-OCR-Program:一款开源的多模态OCR工具

Versatile-OCR-Program简介 Versatile-OCR-Program是一个专为机器学习训练优化的多模态OCR系统,能从复杂教育材料(如考试试卷)中提取结构化数据。它支持多...

BrowseComp:OpenAI 开源的 AI Agent 网络浏览能力基准

BrowseComp简介 BrowseComp是由OpenAI开源的一个用于衡量智能代理网络浏览能力的基准测试。它包含1266个问题,这些问题需要在互联网上进行深入搜索才能找到答...

Fourier N1:傅利叶开源的首款开源人形机器人

Fourier N1 简介 Fourier N1 是由通用机器人公司傅利叶开源的首款开源人形机器人。它身高1.3米,重38公斤,拥有23个自由度,搭载自研的FSA 2.0一体化执行器和...

JavisDiT:同时生成高质量的音频和视频内容

JavisDiT简介 JavisDiT是一种新型的联合音频-视频扩散变换器,专门用于从开放式用户提示中同时生成高质量的音频和视频内容,并确保两者的精确同步。它基于强...

DCEdit:北交联合美图推出的文本引导图像编辑方法

DCEdit简介 DCEdit是由北京交通大学信息科学研究所与美图公司MT Lab联合开发的一种新型文本引导图像编辑方法。它通过精确语义定位(PSL)策略和双层控制(DLC...

OmniSVG:复旦大学联合 StepFun 推出的多模态SVG生成框架

OmniSVG简介 OmniSVG是由复旦大学和StepFun团队共同开发的一个强大的多模态SVG生成框架。它利用预训练的视觉-语言模型(VLMs),能够自回归地生成从简单图标...

Multi-SWE-bench:字节豆包开源的多语言代码修复基准

Multi-SWE-bench简介 Multi-SWE-bench 是由字节跳动豆包大模型团队开发的一个多语言基准测试平台,旨在评估大型语言模型(LLMs)在解决实际软件问题上的能力...

Test-Time Training:英伟达联合斯坦福等大学推出的视频生成技术

Test-Time Training简介 Test-Time Training(TTT)是由 NVIDIA、斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和德克萨斯大学奥斯汀分校的研究团队...
1 2 3 4 5 123