2.应用工具相关 | 第 6 页

FantasyTalking：阿里联合北邮推出的音视频驱动的肖像动画生成框架

FantasyTalking简介 FantasyTalking是由阿里巴巴集团AMAP团队和北京邮电大学联合开发的一种新型音视频驱动的肖像动画生成框架。该技术利用预训练的视频扩...

2-2.应用工具图像

3个月前

Notion MCP Server 简介 Notion MCP Server 是一个由 Notion 官方开发的开源项目，旨在通过 MCP（Machine Content Processing）技术为 Notion API 提供强大的...

2-5.应用工具其他

3个月前

UNO简介 UNO是由字节跳动推出的新型图像生成模型。它通过“少到多”的泛化方法，利用上下文生成能力解锁了更多的可控性，能够实现从单主体到多主体的高一致性图...

2-2.应用工具图像

3个月前

Versatile-OCR-Program简介 Versatile-OCR-Program是一个专为机器学习训练优化的多模态OCR系统，能从复杂教育材料（如考试试卷）中提取结构化数据。它支持多...

2-5.应用工具其他

3个月前

BrowseComp简介 BrowseComp是由OpenAI开源的一个用于衡量智能代理网络浏览能力的基准测试。它包含1266个问题，这些问题需要在互联网上进行深入搜索才能找到答...

2-5.应用工具其他

3个月前

Fourier N1 简介 Fourier N1 是由通用机器人公司傅利叶开源的首款开源人形机器人。它身高1.3米，重38公斤，拥有23个自由度，搭载自研的FSA 2.0一体化执行器和...

2-5.应用工具其他

3个月前

JavisDiT简介 JavisDiT是一种新型的联合音频-视频扩散变换器，专门用于从开放式用户提示中同时生成高质量的音频和视频内容，并确保两者的精确同步。它基于强...

2-4.应用工具音频

3个月前

DCEdit简介 DCEdit是由北京交通大学信息科学研究所与美图公司MT Lab联合开发的一种新型文本引导图像编辑方法。它通过精确语义定位（PSL）策略和双层控制（DLC...

2-2.应用工具图像

3个月前

OmniSVG简介 OmniSVG是由复旦大学和StepFun团队共同开发的一个强大的多模态SVG生成框架。它利用预训练的视觉-语言模型（VLMs），能够自回归地生成从简单图标...

2-2.应用工具图像

3个月前

Multi-SWE-bench简介 Multi-SWE-bench 是由字节跳动豆包大模型团队开发的一个多语言基准测试平台，旨在评估大型语言模型（LLMs）在解决实际软件问题上的能力...

2-5.应用工具其他

3个月前