Docling:IBM推出的开源PDF文档转换工具
Docling简介 Docling是一个开源的PDF文档转换工具,由IBM Research开发,提供易于使用的接口和自包含的解决方案。它利用先进的AI模型进行布局分析和表格结构...
WEBRL:清华与智谱AI联合推出的自进化在线课程强化学习框架
WEBRL简介 WEBRL是由清华大学与智谱AI联合开发的自进化在线课程强化学习框架,旨在训练基于大型开放语言模型的高性能网络代理。通过解决训练任务稀缺、反馈信...
JanusFlow:DeepSeek推出的多模态统一框架
JanusFlow简介 JanusFlow是由DeepSeek-AI、北京大学、香港大学和清华大学的研究团队联合开发的一个多模态框架,它通过整合自回归语言模型和修正流技术,实现...
GameGen-X:首个开放世界游戏视频生成与交互控制模型
GameGen-X简介 GameGen-X 是由香港科技大学、中国科学技术大学和中国科学院合肥物质科学研究院联合开发的一款先进的扩散变换模型,它专门设计用于生成和交互...
Ichigo:一款开源的实时混合模态语音助手
Ichigo简介 Ichigo是一个混合模态实时语音助手,能够无缝处理语音和文本的交织序列。它采用标记化早期融合方法,将语音量化为离散标记,并利用统一的变换器架...
MotionCLR:根据文本提示生成相应的人体运动
MotionCLR简介 MotionCLR是一种基于注意力机制的运动扩散模型,它能够理解和建模文本与运动之间的细粒度对应关系,实现无需训练的交互式运动生成和编辑。通过...
MagicTailor:实现文本到图像扩散模型中的组件可控个性化
MagicTailor简介 MagicTailor是一个创新的框架,用于实现文本到图像扩散模型中的组件可控个性化。它通过动态掩码降解(DM-Deg)技术动态扰动不需要的视觉语义...
SeedEdit:字节跳动豆包团队推出的图像编辑模型
SeedEdit 简介 SeedEdit 是由字节跳动豆包团队开发的一个创新扩散模型,它能够通过文本提示对图像进行精确编辑。该模型通过平衡图像重建与再生成任务,实现了...
HelloMeme:能够处理夸张的面部表情和头部姿势
HelloMeme简介 HelloMeme是一种创新的方法,通过在文本到图像基础模型中插入适配器,利用空间编织注意力机制来增强模型性能,从而实现复杂的下游任务。该方法...
HiCo:360推出的用于布局到图像生成的 分层可控扩散模型
HiCo简介 HiCo是由360 AI Research团队开发的一种层次化可控扩散模型,旨在通过整合不同对象的边界框条件来增强布局到图像生成的控制能力。该模型通过其独特...