博客 | 第 10 页 | 柒柒AI导航

BabelDOC：开源的 PDF 科学论文翻译工具

BabelDOC 简介 BabelDOC 是一个开源的 PDF 科学论文翻译工具，旨在帮助用户高效翻译和对比学术文档。它提供在线服务和自部署选项，支持沉浸式翻译，每月免费...

2-1.应用工具文本

3周前

Llama 4 简介 Llama 4是由Meta开发的开源多模态AI模型系列。该系列包括Scout、Maverick和Behemoth三个版本。其中，Scout拥有170亿活跃参数和16个专家，总参数...

1-2.大模型&国外

3周前

OmniTalker简介 OmniTalker是由阿里巴巴集团通义实验室开发的一款实时文本驱动的说话头像生成框架。它通过创新的双分支扩散变换器架构和跨模态注意力机制，能...

2-2.应用工具图像

3周前

Mini DALL·E 3简介 Mini DALL·E 3是由北京理工大学、上海人工智能实验室、清华大学和香港中文大学联合开发的交互式文本到图像生成模型。它通过自然语言与用户...

2-2.应用工具图像

3周前

Lumina-mGPT 2.0 简介 Lumina-mGPT 2.0 是一款独立的自回归图像生成模型。它从零开始训练，能够统一多种图像生成任务，包括文本到图像生成、图像对生成、主体...

2-2.应用工具图像

3周前

DreamActor-M1简介 DreamActor-M1是由字节跳动智能创作团队开发的一款人类图像动画框架。该框架基于扩散变换器（DiT），通过混合引导信号实现了整体性、表现...

2-2.应用工具图像

3周前

DSO简介 DSO（Direct Simulation Optimization）是一种创新的框架，旨在通过物理模拟器的反馈来优化3D生成器，使其能够生成在物理上更稳定的3D对象。它通过构...

2-6.应用工具3D

3周前

SWEET-RL简介 SWEET-RL是由Meta的FAIR团队和加州大学伯克利分校的研究人员共同推出的多轮强化学习框架，专门用于优化大型语言模型（LLM）代理在多轮交互任务...

2-5.应用工具其他

3周前

EasyControl Ghibli简介 EasyControl Ghibli 是一款基于 EasyControl 框架开发的 AI 模型，可在 Hugging Face 平台免费使用。它专注于将普通图像转换为吉卜力...

2-2.应用工具图像

3周前

Dolphin简介 Dolphin是由海天瑞声与清华大学电子工程系语音与音频技术实验室共同开发的大型多语言自动语音识别（ASR）模型。该模型基于Whisper架构进行扩展，...

3-7.语音模型

3周前