博客 | 第 92 页 | 柒柒AI导航

Docling：IBM推出的开源PDF文档转换工具

Docling简介 Docling是一个开源的PDF文档转换工具，由IBM Research开发，提供易于使用的接口和自包含的解决方案。它利用先进的AI模型进行布局分析和表格结构...

2-5.应用工具其他

6个月前

WEBRL简介 WEBRL是由清华大学与智谱AI联合开发的自进化在线课程强化学习框架，旨在训练基于大型开放语言模型的高性能网络代理。通过解决训练任务稀缺、反馈信...

2-5.应用工具其他

6个月前

JanusFlow简介 JanusFlow是由DeepSeek-AI、北京大学、香港大学和清华大学的研究团队联合开发的一个多模态框架，它通过整合自回归语言模型和修正流技术，实现...

3-2.图片生成模型

6个月前

GameGen-X简介 GameGen-X 是由香港科技大学、中国科学技术大学和中国科学院合肥物质科学研究院联合开发的一款先进的扩散变换模型，它专门设计用于生成和交互...

2-5.应用工具其他

6个月前

Ichigo简介 Ichigo是一个混合模态实时语音助手，能够无缝处理语音和文本的交织序列。它采用标记化早期融合方法，将语音量化为离散标记，并利用统一的变换器架...

2-4.应用工具音频

6个月前

MotionCLR简介 MotionCLR是一种基于注意力机制的运动扩散模型，它能够理解和建模文本与运动之间的细粒度对应关系，实现无需训练的交互式运动生成和编辑。通过...

2-3.应用工具视频

6个月前

MagicTailor简介 MagicTailor是一个创新的框架，用于实现文本到图像扩散模型中的组件可控个性化。它通过动态掩码降解（DM-Deg）技术动态扰动不需要的视觉语义...

2-2.应用工具图像

6个月前

SeedEdit 简介 SeedEdit 是由字节跳动豆包团队开发的一个创新扩散模型，它能够通过文本提示对图像进行精确编辑。该模型通过平衡图像重建与再生成任务，实现了...

2-2.应用工具图像

6个月前

HelloMeme简介 HelloMeme是一种创新的方法，通过在文本到图像基础模型中插入适配器，利用空间编织注意力机制来增强模型性能，从而实现复杂的下游任务。该方法...

2-3.应用工具视频

6个月前

HiCo简介 HiCo是由360 AI Research团队开发的一种层次化可控扩散模型，旨在通过整合不同对象的边界框条件来增强布局到图像生成的控制能力。该模型通过其独特...

3-2.图片生成模型

6个月前